RLHF (reinforcement learning from human feedback)

Engelsk term: Reinforcement learning from human feedback (RLHF)
Svensk term: RLHF (reinforcement learning from human feedback)

Vad är RLHF (reinforcement learning from human feedback)?

RLHF är en teknik där man använder mänsklig feedback för att lära en AI att agera på ett sätt som människor föredrar. Tänk dig att du tränar en hund: du belönar den när den gör rätt och korrigerar den när den gör fel. På samma sätt får en AI-modell feedback från människor om vilka svar som är bra eller dåliga.

Ursprung och källa

OpenAI (InstructGPT-artikel), 2022

Se även

LLM (stor språkmodell)
Transformer

Läs mer

Ouyang m.fl. (2022): Training language models to follow instructions with human feedback (InstructGPT)
Wikipedia: RLHF