Някои от най-големите технологични компании в света са обучавали моделите си за изкуствен интелект върху набор от данни, включващ транскрипции на повече от 173 000 видеоклипа в YouTube, без да имат разрешение за това, установява ново разследване на Proof News, цитирано от Engadget.

Наборът от данни, създаден от компания с нестопанска цел, наречена EleutherAI, съдържа транскрипции на видеоклипове в YouTube от повече от 48 000 канала и е бил използван от Apple, NVIDIA и Anthropic, както и от други компании. Констатациите от разследването подчертават неудобната истина за изкуствения интелект - технологията до голяма степен е изградена на базата на данни, извличани от създателите без тяхното съгласие или компенсация.

Наборът от данни не включва никакви видеоклипове или изображения от YouTube, но съдържа субтитри на видеоклипове от най-големите създатели на платформата, включително Marques Brownlee и MrBeast, както и от големи издатели на новини като The New York Times, BBC и ABC News. Субтитрите от видеоклипове, принадлежащи на Engadget, също са част от набора от данни.

„Apple е набавила данни за своя изкуствен интелект от няколко компании“, пише Marques Brownlee в X. „Друга компания е изстъргала тонове данни от видеоклипове в YouTube, включително и моите. Това ще бъде проблем, който ще се развива дълго време.“

Говорител на Google посочва пред Engadget, че предишните коментари, направени от главния изпълнителен директор на YouTube Нийл Мохан, в които се казва, че компаниите, използващи данни на платформата за обучение на модели за изкуствен интелект, ще нарушат условията за ползването ѝ, все още са в сила.

Apple, NVIDIA, Anthropic и EleutherAI засега не са отговорили официално на обвиненията.

Компаниите за изкуствен интелект като цяло не са прозрачни по отношение на данните, използвани за обучение на техните модели. По-рано този месец художници и фотографи разкритикуваха Apple, че не е разкрила източника на своите обучителни масиви за Apple Intelligence - собствената разработка на компанията за генеративен изкуствен интелект, която ще бъде интегрирана в милиони устройства тази година.

По-специално YouTube, най-голямото в света хранилище на видеоклипове, е златна мина не само за транскрипции, но и за аудио, видео и изображения, което го прави привлекателно за обучение на модели на AI. По-рано тази година главният технологичен директор на OpenAI, Мира Мурати, избегна въпросите на The Wall Street Journal за това дали компанията е използвала видеоклипове от платформата за обучение на Sora, предстоящия инструмент на стартъпа за генериране на видеоклипове с изкуствен интелект.

„Няма да навлизам в подробности за данните, които са били използвани, но това са публично достъпни или лицензирани масиви“, каза тогава Мурати.

Главният изпълнителен директор на Alphabet Сундар Пичай също е категоричен, че компаниите, които използват данни от YouTube за обучение на своите модели, биха нарушили условията за ползване на платформата.

Ако искате да видите дали субтитрите от вашите видеоклипове в YouTube или от любимите ви канали са част от набора от данни, отидете на инструмента за търсене на Proof News.