Reddit съди Perplexity за незаконно извличане на потребителски публикации
Ходът е нов етап в битката между социалните мрежи и AI индустрията за правата върху данните
&format=webp)
Социалната медийна платформа Reddit е завела дело срещу компанията за изкуствен интелект Perplexity, обвинявайки я, че незаконно е извличала публикации на потребители, за да обучава своите AI модели, съобщава CNBC.
Делото бележи поредния сблъсък между притежателите на съдържание и AI индустрията относно правата върху данните.
Жалбата е подадена в съд в Ню Йорк в сряда и посочва още три съизвършители, които според Reddit са помагали на Perplexity да събира данните:
Oxylabs – компания за уеб извличане на данни от Литва,
AWMProxy – описвана като „бивш руски ботнет“,
и SerpApi – стартъп от Тексас.
Reddit твърди, че трите компании са екстрахирали защитено с авторски права съдържание, като са „маскирали самоличността си, скривали местоположението си и прикривали инструментите си за извличане като обикновени потребители“.
Отговорът на Perplexity
Perplexity, която управлява търсачка, захранвана от изкуствен интелект, отрече обвиненията и обвини Reddit в „изнудване“ и „враждебност към отворения интернет“. От своя страна, SerpApi казва пред CNBC, че „категорично не е съгласна с твърденията на Reddit“ и ще се защитава в съда.
Делото е част от поредица съдебни процеси, в които собственици на съдържание обвиняват AI компании, че използват защитени материали без разрешение, за да обучават езиковите си модели. Reddit вече води подобно дело срещу AI стартъпа Anthropic, заведено през юни.
Reddit: Нашето съдържание се използва без разрешение
В изявление, изпратено до CNBC, Бен Лий, главен юридически директор на Reddit, казва, че AI компаниите са „въвлечени в надпревара за качествено човешко съдържание“, което е породило „икономика на пране на данни в индустриален мащаб“.
Той подчертава, че софтуерите за автоматично извличане на данни (scrapers) заобикалят технологичните защити, крадат информация и я продават на клиенти, които търсят материали за обучение на AI системи.
„Reddit е една от най-големите и най-динамични колекции от човешки разговори, създавани някога - естествено, ние сме прицелна мишена“, посочва Лий.
Платформата Reddit, която приютява над 100 000 тематични общности („subreddits“), твърди, че публикациите на неговите потребители са се превърнали в най-често цитирания източник в отговорите, генерирани от Perplexity.
Компанията посочва, че след като е изпратила писмо за прекратяване до Perplexity, броят на позоваванията на Reddit в резултатите на Perplexity е нараснал 40 пъти.
Изследователи в сферата на AI отдавна отбелязват, че модерираните дискусии в Reddit могат да помогнат на чатботовете да създават по-естествени отговори.
Reddit и бизнесът с лицензи за данни
В ерата на изкуствения интелект Reddit се стреми да монетизира огромната си база данни, като разрешава достъп единствено чрез лицензионни споразумения. Компанията вече е подписала такива с OpenAI и Google (Alphabet).
В отговор на иска Perplexity публикува изявление в самата платформа Reddit, в което твърди, че не обучава AI модели върху съдържание, а само обобщава и цитира публични дискусии. Според нея, затова е „невъзможно да се подпише лицензионно споразумение“.
„Преди година, след като обяснихме това, Reddit настоя въпреки всичко да платим - макар че сме достъпвали данните напълно законно. Поддаването на натиск не е нашият начин на правене на бизнес“, гласи позицията на компанията.
Perplexity описва делото като „демонстрация на сила в преговорите на Reddit за лицензи с Google и OpenAI“, наричайки го „тъжен пример за това, какво се случва, когато публичните данни се превърнат в част от бизнес модела на публична компания“.
Данните – новата валута
Според Reddit, приходите от лицензиране на данни вече са значителна част от общите ѝ постъпления. Още през февруари, оперативният директор Джен Уонг заяви пред списание Adweek, че договорите с Google и OpenAI формират близо 10% от приходите на Reddit.
Делото на Reddit срещу Perplexity е още един знак за нарастващото напрежение между създателите на съдържание и технологичните компании, които се състезават да нахранят своите алчни за данни AI модели – борба, която тепърва ще определя границите между интелектуална собственост и машинно обучение.