Prompt injection

Förklaring

Prompt injection är en säkerhetsattack där en angripare gömmer skadliga instruktioner i text som AI:n läser, till exempel i en webbsida, ett mejl eller ett dokument. När AI:n bearbetar texten lurar instruktionerna den att göra något oönskat, som att läcka känslig information eller utföra fel åtgärder. Skiljer sig från jailbreaking genom att attacken kommer via data som modellen tar in, inte direkt från användarens prompt.

Ursprung och källa

Riley Goodside och Simon Willison, 2022

Läs mer

en.wikipedia.org