Чатботовете на OpenAI се сдобиха с нов голям източник на данни, след като компанията сключи сделка с News Corp. в сряда. С един прост подпис ChatGPT и другите инструменти на компанията добавиха Wall Street Journal, New York Post, MarketWatch, Barron's и други издания към своята база данни.

Сделката, която не включваше съдържанието на Fox News, беше последната от нарастващата серия споразумения за споделяне на големи данни, които OpenAI подписа в опит да обучи своите системи и да разшири познанията на технологията. Едва миналата седмица компанията подписа подобно споразумение с Reddit за включване на нейното съдържание в ChatGPT, както и в предстоящи продукти.

Сделките се сключват, след като някои медии, включително The New York Times, заведоха съдебни дела срещу OpenAI и Microsoft за това, че са използвали истории без разрешение, защитени с авторски права на техните издания, в обучението на чатботове.

В иска, подаден във Федералния окръжен съд в Манхатън, се твърди, че милиони статии на NYT са били използвани за обучение на чатботове, които са започнали да се конкурират с изданията като източници на информация. Колектив от известни автори също е подал иск срещу компанията, като твърди, че става дума за "систематична кражба в масов мащаб", посочва Fast Company.

Въвеждането на данни е само половината от битката, разбира се. OpenAI ще трябва да разбере как да се справи с пристрастията в информацията и как да отсее коментари, които са саркастични или чисто пародийни. По-рано тази седмица Google показа, че все още има да извърви дълъг път по този въпрос, като AI търсачката на компанията сподели като факт ироничен пост в Reddit, в който се предлага "да се смеси около 1/8 чаша нетоксично лепило в соса", за да не се изплъзне сиренето от парчето пица.

Вижте списък, изготвен от Fast Company, изреждащ изданията по които ще се обучават инструментите на ОpenAI:

Associated Press

През юли миналата година AP и OpenAI обявиха сделка, която позволява на гиганта в областта на изкуствения интелект да лицензира архива с новинарски истории на изданието от 1985 г. насам. В замяна AP получи възможност да използва технологията на OpenAI.

Axel Springer

Немската компания беше първата голяма медия, която си партнира с OpenAI и отвори архивите си за чатботовете. Axel Springer контролира огромен асортимент от издания, включително Politico, Business Insider и немските Bild и Welt.

Dotdash Meredith

Това е едно от най-големите дигитални издателства в САЩ, така че лицензионната сделка, подписана през май, дава на OpenAI достъп до повече от 40 медии, включително People, Travel & Leisure, Entertainment Weekly, Allrecipes, Real Simple, Food & Wine, Parents, Investopedia, Better Homes & Garden и InStyle.

До сделката се стигна, след като компанията майка на IAC настоя за създаване на коалиция, обединяваща големите издатели, които се стремят да защитят материалите, защитени с авторски права, от изкуствения интелект. Това усилие в крайна сметка се провали.

Financial Times

През април FT стартира партньорство с OpenAI. Лицензионното споразумение даде възможност на производителя на ChatGPT да използва материали на изданието за създаване на текст, изображения и код. Сделката също така позволява на ChatGPT да отговаря на въпроси с кратки резюмета на статии от FT, с линкове към уебсайта на изданието.

Le Monde

През март френската медийна организация сключи многогодишно лицензионно споразумение с OpenAI за своята библиотека със съдържание. Снимките не бяха част от сделката, а компанията се съгласи препратките към статиите на Le Monde да бъдат подчертани и придружени от лого, хипервръзка и заглавията на статиите, използвани като препратки.

News Corp.

Многогодишната сделка на News Corp. ще даде на OpenAI достъп до каталог с някои от най-уважаваните финансови репортажи, включващ истории от Тhe Wall Street Journal, MarketWatch, Barron's и др. Тя ще предостави достъп и до New York Post, както и до британските издания The Times и The Sun и множество австралийски медии, включително The Herald Sun и The Courier Mail.

Споразумението обаче не включва съдържание от Fox News или други бизнеси на News Corp.

Prisa Media

По същото време, когато сключи сделка с Le Monde, OpenAI започна партньорство и с испанската новинарска медия Prisa Media, която има издания в Испания, Латинска Америка и САЩ, включително El Pais и El Huffpost, испанската версия на Huffington Post.

Reddit

С над 1 милион публикации на ден Reddit е постоянен източник на съдържание, което ChatGPT може да погълне. Той също така ще предостави на чатбота данни за широк спектър от теми - от сесиите "Питай ме всичко" с известни личности и хора с необичайни професии до спортни дискусии.

През февруари Reddit сключи и лицензионна сделка за съдържание с Google на стойност 60 млн. долара.

Shuttershock

Партньорството на OpenAI с уебсайта за стокова фотография датира от 2021 г. През 2023 г. компанията обяви, че удължава колаборацията с още шест години, като Shutterstock предоставя голям обем от данни за обучение на нейния изкуствен интелект, включително библиотеките с изображения, видео и музика и свързаните с тях метаданни.

Тези сделки може да са само върхът на айсберга. Тъй като OpenAI продължава да развива ChatGPT, тя ще се нуждае от повече данни за своите големи езикови модели. Няколко големи издатели - от книжарници до новинарски агенции - все още стоят настрана, но биха могли да бъдат убедени да подпишат партньорство през следващите месеци, тъй като приходите им намаляват, а компанията от Силициевата долина предлага изгодни договори.