Generativ AI och språkmodeller

RLHF (reinforcement learning from human feedback)

Engelsk term
Reinforcement learning from human feedback (RLHF)
Svensk term
RLHF (reinforcement learning from human feedback)

Vad är RLHF (reinforcement learning from human feedback)?

RLHF är en teknik där man använder mänsklig feedback för att lära en AI att agera på ett sätt som människor föredrar. Tänk dig att du tränar en hund: du belönar den när den gör rätt och korrigerar den när den gör fel. På samma sätt får en AI-modell feedback från människor om vilka svar som är bra eller dåliga.

Ursprung och källa

OpenAI (InstructGPT-artikel), 2022

Se även

Läs mer