Prompt injection
Förklaring
Prompt injection är en säkerhetsattack där en angripare gömmer skadliga instruktioner i text som AI:n läser, till exempel i en webbsida, ett mejl eller ett dokument. När AI:n bearbetar texten lurar instruktionerna den att göra något oönskat, som att läcka känslig information eller utföra fel åtgärder. Skiljer sig från jailbreaking genom att attacken kommer via data som modellen tar in, inte direkt från användarens prompt.
Ursprung och källa
Riley Goodside och Simon Willison, 2022