Generativ AI och språkmodeller

Token (AI-token)

Engelsk term
Token (AI token)
Svensk term
Token (AI-token)

Vad är Token (AI-token)?

En AI-token är den minsta enheten av data som en AI-modell bearbetar för att förstå och generera text. Tänk dig det som legobitar som AI:n använder för att bygga meningar. En token motsvarar ofta ett kort ord (som "och") eller en del av ett längre ord. När du skriver en fråga till en AI delas din text upp i tokens, och antalet tokens påverkar både kostnaden och hur mycket information AI:n kan hantera. Som tumregel blir 100 engelska ord cirka 130 tokens, och svenska kräver ofta ännu fler eftersom modellerna tränats mest på engelska. Exakt antal beror på språkmodell, språk och typ av ord, så det är ingen exakt regel.

Den svenska meningen "Egentligen är AI-modeller jättesnabba!" delas upp i nio färgade tokens. Korta ord blir en token, längre ord delas i flera, och utropstecknet blir en egen token.
Tokenisering av en svensk mening. Exakt indelning varierar mellan modellfamiljer (GPT, Claude och Gemini har olika tokenizers), men principen är densamma.

Ursprung och källa

Konceptet tokenisering har funnits länge inom NLP; populariserades med LLM:er under 2020-talet

Se även

Läs mer