Bedömningsmatris (rubric)
Vad är Bedömningsmatris (rubric)?
En rubric är en uppsättning uttalade kriterier för hur ett AI-svar ska bedömas: vad som räknas som bra, vad som drar ner betyget och hur de olika delarna ska viktas. Det är som en lärares rättningsmall, där varje poäng hänger på ett konkret krav i stället för på magkänsla. I stället för att fråga 'är det här svaret bra?' delar en rubric upp bedömningen i mätbara delar, till exempel om svaret håller sig till källan, har rätt ton och faktiskt löser uppgiften.
Rubrics används flitigt när man utvärderar språkmodeller (se evals), ofta ihop med en så kallad LLM-as-a-judge: en AI som läser kriterierna och sätter betyg på ett annat AI-svar. På senare tid har de även börjat användas i själva träningen, där modellen belönas efter hur väl den uppfyller sin rubric i stället för att bara få ett övergripande 'bra' eller 'dåligt'. Poängen är att göra bedömningen konsekvent och genomskinlig, så att två olika bedömare, mänskliga eller AI, landar i ungefär samma omdöme. En rubric är samtidigt bara så bra som kriterierna du skriver: diffusa krav ger en diffus bedömning.
Ursprung och källa
Rubrikbegreppet kommer från pedagogisk bedömning; aktualiserat i AI-utvärdering och träning under 2020-talet