Nya vapen mot AI-företagens spindlar

AI-jättarna har byggt sina jättelika språkmodeller på enorma mängder data. Data som till stor del har samlats in från det öppna internet. Det här har lett till stämningsansökningar från många rättighetsinnehavare, men också till att sajter försöker skydda sig mot att få allt innehåll inläst av AI-bolagens spindlar.

En metod är med den gamla välbekanta robots.txt-filen som länge har använts för att säga åt sökmotorernas spindlar att låta bli en webbplats. Open AI säger sig följa instruktionerna i de filerna, men flera konkurrenter har ertappats med att ignorera dem. Det har lett till att frustrerade utvecklare har tagit saken i egna händer, rapporterar Ars Technica.

Nepenthes kallar en anonym utvecklare sin lösning. Namnet kommer från de köttätande växterna i kannrankesläktet, men mjukvaran är en så kallad tarpit, en mekanism som är designad att lura in spindlarna i en oändlig serie automatiskt genererade, länkade sidor. Syftet är att slösa AI-bolagens resurser om de ignorerar uppmaningen att låta bli sajten i robots.txt, men den har även ett mer offensivt försvar.

Om användaren vill går det nämligen att fylla de genererade sidorna med skräpdata som är till för att ”förgifta” AI-modellerna som ska tränas på all insamlad data. Utvecklaren skriver att den som hyser agg mot AI-bolagen och har en kraftfull server kan ställa in Nepenthes att arbeta snabbare än vanligt för att skicka så mycket skräp det bara gå.

Gergely Nagy har utvecklat ett liknande verktyg som han kallar Iocaine, döpt efter ”ett av världens dödligaste gifter” enligt filmen The Princess Bride. Hans filosofi är mer uttalat AI-fientlig och syftet med verktyget är orsaka AI-bolagen så mycket skada som möjligt.

Ett tredje alternativ är Quixotic från utvecklaren Marcus Butler, som är mer intresserad av att ge sajter ett sätt att kunna säga ifrån mot att få allt innehåll insamlat av de hungriga spindlarna.

Forskaren Nathan VanHoudnos säger till Ars Technica att den här typen av försvar knappast kommer orsaka någon enorm skada på AI-bolagen eller deras modeller, men att de är användbara verktyg.

Sajten har även talat med forskaren och kommentatorn Jürgen Geuter, som säger att AI är det mest aggressiva exemplet på teknik som utvecklas och används ”på oss, inte för oss”. Han hyllar utvecklarna av Nepenthes och liknande försvarssystem, och säger att de är en symbol för motstånd mot tekniken.

– Det är härligt att se folk som ifrågasätter tanken att vi alla måste använda AI nu. För det måste vi inte. Det är ett val. Ett val som framför allt gynnar monopolister.