Hackare lurar AI med ASCII-konst

Gång på gång hittar säkerhetsforskare nya sätt att kringgå skyddsmekanismer i Chat GPT och andra AI-chattbotar. Tidigare så kallade ”jailbreak” har huvudsakligen handlat om språkbaserade attacker, men nu visar en grupp säkerhetsforskare att de fem populäraste stora språkmodellerna är sårbara för attacker som utnyttjar – håll i dig nu – ASCII-konst.

Metoden har fått namnet Artprompt och kombinerar en vanlig textprompt med ASCII-konst för att lura chattbotarna att ignorera sina regler, rapporterar Venturebeat. Säkerhetsforskarna visar till exempel hur de kan få instruktioner för att tillverka en bomb, vilket chattbotarna normalt stoppar.

ASCII-konsten i fråga är inte bilder utan text renderad med ASCII-tecken. Attacken utnyttjar därmed det faktum att språkmodellerna kan känna igen innehåll i bilder och att skyddsmekanismerna fokuserar på texten i prompten, inte tolkningen av den. På så vis liknar den tidigare attacker som har kommit runt skydden genom att exempelvis lura chattboten att själv nämnda den förbjudna termen och sedan referera till den.

Experter Venturebeat har talat med säger att ett effektivt försvar mot den här typen av attack kommer kräva en flerhövdad strategi. Ett försvar kan till exempel vara att ignorera prompter som innehåller teckensekvenser utan några ord, med hjälp av reguljära uttryck (regex).