Данните за AI: Един зараждащ се пазар с голям потенциал и още повече въпросителни
Развитието на технологията води до скрита търговия с всичко - от записи от чатове до отдавна забравени лични снимки
В началото на първото десетилетие на новия век Photobucket беше най-големият сайт за хостинг на изображения в света. Медийният гръбнак на някогашни популярни услуги като Myspace и Friendster се гордееше със 70 милиона потребители и представляваше почти половината от пазара на онлайн снимки в САЩ.
Днес само 2 милиона души все още използват Photobucket, според аналитичната компания Similarweb. Но революцията в областта на генеративния изкуствен интелект може вдъхне нов живот на платформата.
Главният изпълнителен директор Тед Леонард, който управлява компанията с 40 служители от Едуардс, Колорадо, коментира пред Reuters, че води преговори с множество технологични компании за лицензиране на 13-те милиарда снимки и видеоклипове на Photobucket, които да бъдат използвани за обучение на генеративни модели на изкуствен интелект, които могат да създават ново съдържание в отговор на текстови подкани.
По думите му той е обсъждал цени между 5 цента и 1 долар за снимка и над 1 долар за видео, като цените варират в широки граници както в зависимост от купувача, така и от видовете търсени изображения.
"Говорили сме с компании, които са казвали: "Имаме нужда от много повече", допълва Леонард, като един от купувачите дори му е казал, че иска над един милиард видеоклипа - повече, отколкото има неговата платформа.
Photobucket отказва да назове потенциалните си клиенти, позовавайки се на търговска тайна. Провежданите преговори, за които не е съобщавано досега, показват, че компанията може да разполага със съдържание на стойност милиарди долари, и дават представа за оживлението, което цари на пазар на данни, възникващ като следствие от надпреварата за доминация на терена на генеративния изкуствен интелект.
Компанията твърди, че оперативната ѝ печалба за първото тримесечие ще скочи над 10 пъти до почти 4,9 млрд. долара.
Технологични гиганти като Google, Meta и подкрепяната от Microsoft OpenAI първоначално използваха масиви от данни, събрани безплатно от интернет, за да обучават генеративни модели като ChatGPT. Те твърдят, че това е законно и етично, въпреки че са изправени пред множество съдебни искове от редица притежатели на авторски права заради тази практика.
В същото време тези технологични компании тихо плащат за съдържание, заключено в платени „силози“, което води до скрита търговия с всичко - от записи от чатове до отдавна забравени лични снимки в отдавна останали в периферията приложения за социални медии.
"В момента има наплив да се търсят притежатели на авторски права, които имат частни колекции от данни, недостъпни за скрапиране (метод, при който от един сайт се „остъргва“ информация)", казва Едуард Кларис от адвокатската кантора Klaris Law, която твърди, че консултира собственици на съдържание по сделки на стойност десетки милиони долари за лицензиране на архиви от снимки, филми и книги за обучение на изкуствен интелект.
Към днешна дата много големи организации за пазарни проучвания казват, че дори не са започнали да оценяват размера на непрозрачния пазар на данни за обучение на изкуствен интелект, в който компаниите често не разкриват споразуменията. Тези изследователи, които го правят, като Business Research Insights, оценяват пазара на около 2,5 млрд. долара днес и прогнозират, че той може да нарасне до близо 30 млрд. долара в рамките на десетилетие.
Златна треска за данни
Златната треска за данни започва да набира скорост, тъй като създателите на големи генеративни модели на AI са изправени пред нарастващ натиск да отчитат огромните количества съдържание, които подават към своите системи - процес, известен като "обучение", който изисква интензивна изчислителна мощност и често отнема месеци, за да бъде завършен. Технологичните компании твърдят, че този тип платформи биха били прекалено скъпи, ако те не можеха да използват огромни архиви от безплатни данни като тези, предоставени от хранилището с нестопанска цел Common Crawl, които те описват като "публично достъпни".
Въпреки това техният подход предизвика вълна от съдебни искове за авторски права и регулаторни мерки, като същевременно накара издателите да добавят код към своите уебсайтове, за да блокират т.нар. „остъргване“. В отговор на това създателите на модели за изкуствен интелект започнаха да хеджират рисковете и да осигуряват вериги за доставка на данни - както чрез сделки със собственици на съдържание, така и чрез процъфтяващата индустрия на брокери на данни, която се появи, за да задоволи търсенето.
В месеците след дебюта на ChatGPT в края на 2022 г. например много компании, сред които Meta, Google, Amazon и Apple, сключиха споразумения с доставчика на изображения Shutterstock за използване на стотици милиони снимки, видеоклипове и музикални файлове от неговата библиотека за обучение.
Сделките първоначално са били на стойност от 25 до 50 млн. долара всяка, но по-късно повечето от тях са били разширени, разкрива главният финансов директор на Shutterstock Джарод Яхес, добавяйки, че след това по-малките технологични играчи са последвали този пример, което стимулира нова "активност" през последните два месеца.
Конкурентът на Shutterstock, Freepik, коментира на свой ред, че е сключил споразумения с две големи технологични компании за лицензиране на по-голямата част от архива си от 200 милиона изображения на цена от 2 до 4 цента на изображение. В процес на подготовка са още пет подобни сделки, споделя главният изпълнителен директор Хоакин Куенка Абела.
OpenAI, първият клиент на Shutterstock, също така е подписала лицензионни споразумения с поне четири новинарски организации, включително The Associated Press и Axel Springer. Thomson Reuters, собственик на Reuters News, също е сключил споразумения за лицензиране на новинарско съдържание, което да помогне за обучението на големи езикови модели на AI.
Съдържание с етичен произход
Появява се и индустрия от специализирани компании за данни за AI, които си осигуряват права върху реално съдържание като подкастове, кратки видеоклипове и взаимодействия с цифрови асистенти, като същевременно изграждат мрежи от работници на краткосрочни договори за създаване на персонализирани визуализации и гласови семпли от нулата. Базираната в Сиатъл Defined.ai например предоставя лицензи за данни на редица компании, включително Google, Meta, Apple, Amazon и Microsoft, разкрива пред Reuters главният изпълнителен директор Даниела Брага.
Цените варират в зависимост от купувача и вида на съдържанието, но Брага посочва, че компаниите обикновено са склонни да плащат от 1 до 2 долара за изображение, от 2 до 4 долара за кратко видео и от 100 до 300 долара за филми. Пазарната ставка за текст е 0,001 долара на дума, добавя тя.
Изображенията на голи тела, които изискват най-чувствително отношение, струват от 5 до 7 долара.
Defined.ai разделя тези приходи с доставчиците на съдържание. Платформата продава своите набори като "етично получени", тъй като получава съгласие от хората, чиито данни използва, и премахва личната информация.
Един нейните доставчици, базиран в Бразилия предприемач, посочва, че плаща на собствениците на снимки, подкастове и медицински данни, които използва, около 20-30% от общата сума на сделката. Най-скъпите изображения в портфолиото му са тези, които се използват за обучение на системи за изкуствен интелект, които блокират съдържание с насилие, забранено от технологичните компании. За да изпълни тези поръчки, той получава изображения на местопрестъпления, насилие в конфликти и операции - основно от полицията, фотожурналисти на свободна практика и студенти по медицина. Най-накрая компанията наема медицински сестри, свикнали да виждат жестоки наранявания, за да анонимизират и анотират изображенията, които са смущаващи.
Рискован модел
Според много от интервюираните участници в сектора, макар че лицензирането може да разреши някои правни и етични проблеми, възкресяването на архивите на стари интернет имена като Photobucket като гориво за най-новите модели на изкуствен интелект поражда други, особено по отношение на неприкосновеността на личния живот на потребителите.
Системите за изкуствен интелект са били хващани да дават точни копия на учебните си данни, като например водния знак на Getty Images, дословни абзаци от статии на New York Times и изображения на реални хора. Това означава, че личните снимки или интимните мисли на даден човек, публикувани преди десетилетия, могат да попаднат в генеративните резултати без предупреждение или изрично съгласие.
Главният изпълнителен директор на Photobucket Леонард твърди, че се опира на солидна правна основа, позовавайки се на актуализация на условията за ползване на услугата на компанията през октомври, която ѝ дава "неограничено право" да продава всяко качено съдържание с цел обучение на системи за изкуствен интелект. Той разглежда лицензирането на данни като алтернатива на продажбата на реклами.
"Трябва да плащаме сметките си и това може да ни даде възможност да продължим да поддържаме безплатни акаунти", посочва той.
"Намирам го за много рисковано", контрира Брага. "Ако има изкуствен интелект, който генерира снимка на реален човек, без той никога да е одобрявал подобно нещо, това е проблем."
Photobucket не е единствена сред платформите, която приема лицензирането. Компанията майка на Tumblr Automattic заяви миналия месец, че споделя съдържание с "избрани компании за изкуствен интелект". Reddit пък сключи сделка с Google, за да предостави съдържанието си за обучение на моделите на изкуствения интелект на компанията.
Преди първичното си публично предлагане през март Reddit разкри, че бизнесът ѝ с лицензиране на данни е обект на разследване от страна на Федералната търговска комисия на САЩ и призна, че може да попадне в противоречие с развиващите се разпоредби за защита на личните данни и интелектуалната собственост.