AI-utvärderingar (Evals)

Engelsk term: Evals (AI Evaluations)
Svensk term: AI-utvärderingar (Evals)

Vad är AI-utvärderingar (Evals)?

AI-utvärderingar, eller Evals, är som kvalitetstester för AI-system. Precis som man testar en ny bil för att se att den är säker och fungerar som den ska, använder man Evals för att systematiskt bedöma hur väl en AI presterar sina uppgifter och minimera risker. Det är dock svårare än att testa vanlig mjukvara, eftersom språkmodeller är icke-deterministiska. Samma fråga kan ge olika svar varje gång, så man måste mäta över hundratals eller tusentals försök för att få en pålitlig bild. Bra evals kombinerar automatiska tester med mänsklig bedömning av kvalitet, ton och faktainnehåll.

Ursprung och källa

OpenAI / Anthropic, populariserades under 2020-talet

Se även

AI-säkerhet
Hallucination (AI-hallucination)
Bedömningsmatris (rubric)
LLM-as-a-judge

Läs mer

Anthropic: Demystifying evals for AI agents
Mind the Product (2025): A guide on implementing effective AI evaluations