En ny rapport från Proof News visar att bland annat Nvidia, Apple, Anthropic och Salesforce har tränat sina AI-modeller på en datasamling som innehåller undertexter från Youtube-klipp, utan att Youtube visste om det. Bolagen använde sig av datainsamlingen Youtube Subtitles som den ideella forskargruppen EleutherAI skapade och publicerade 2020.

Enligt Proof News består Youtube Subtitles av över 173 000 klipp från 48 000 kanaler. Samlingen innehåller dessutom undertexter från 12 000 videoklipp som har raderats sedan 2020. EleutherAI samlade in all data utan att fråga Youtube för tillåtelse, vilket bryter mot sidans regler om datainsamling.

Youtube Subtitles innehåller bland annat 337 videoklipp från Pewdiepie, 377 klipp från Jacksepticeye, samt två från Mrbeast och sju från Marques Brownlee. Enligt kreatörerna som Proof News har varit i kontakt med har EleutherAI gjort datasamlingen utan deras kännedom. Marques Brownlee har uttryckt sitt missnöje på X.

Jag betalar för en tjänst för mer korrekta transkriberingar av mina egna videoklipp, som jag sedan laddar upp till Youtubes backend. Så företag som samlar in transkriberingar stjäl betalt arbete på mer än ett sätt. Inte toppen. – Marques Brownlee

Datasamlingen innehåller även transkriptioner från klipp upplagda av BBC, The Wall Street Journal, Khan Academy samt universiteten MIT och Harvard.

Proof News hittade även undertexter i Youtube Subtitles som diskuterade konspirationsteorier, som att jorden är platt. Andra undertexter innehåller svordomar och diskriminerande språk. EleutherAI har inte kommenterat uppgifterna.