AI плагиатство или какво се случва, когато Grok счупи кода на ChatGPT
След еуфорията от пускането на ChatGPT, редица изследователи и експерти предупредиха, че лекотата, с която се създава съдържание чрез инструменти с изкуствен интелект, може да „отрови кладенеца“ на информация, създавайки порочен кръг, в който тези инструменти генерират съдържание, което след това се използва за обучение на други модели за AI.
Този така наречен "срив на модела" - който би изчерпал всички "знания", натрупани от чатботовете, изглежда се е сбъднал, пишат в анализ от FastCompany.
Неотдавна потребител на X (Twitter) публикува скрийншот, показващ, че Grok, чатботът с голям езиков модел, разработен от xAI на Илон Мъск, е (вероятно неволно) плагиатствал отговор от конкурентния чатбот на OpenAI.
Когато потребителят го помолил да подправи злонамерен софтуер, Grok отговорил, че не може, "тъй като това противоречи на политиката на OpenAI".
"Това се случи, когато се опитах да го накарам да модифицира някакъв зловреден софтуер", обяснява потребителят в публикацията, като предполага, че отговорът може да е доказателство, че "Grok буквално разкъсва кодовата база на OpenAI".
Uhhh. Tell me that Grok is literally just ripping OpenAI's code base lol. This is what happened when I tried to get it to modify some malware for a red team engagement. Huge if true. #GrokX pic.twitter.com/4fHOc9TVOz
— Jax Winterbourne (@JaxWinterbourne) December 9, 2023
The issue here is that the web is full of ChatGPT outputs, so we accidentally picked up some of them when we trained Grok on a large amount of web data. This was a huge surprise to us when we first noticed it. For what it’s worth, the issue is very rare and now that we’re aware…
— Igor Babuschkin (@ibab_ml) December 9, 2023
"Проблемът тук е, че мрежата е пълна с изходи от ChatGPT, така че ние случайно взехме някои от тях, когато обучихме Grok върху голямо количество уеб данни", пише той. "Това беше огромна изненада за нас, когато го забелязахме за първи път."
Grok е създаден по-специално за извличане на данни от лайфстрийм на интернет съдържание, включително от потока от публикации на X, което беше определено като потенциален проблем от експерти в коментар за FastCompany още преди месец.
"Това наистина показва, че тези модели няма да бъдат надеждни в дългосрочен план, ако се учат от данни след епохата на LLM – без да може да се каже какви данни са били генерирани от машини, качеството на резултатите ще продължи да спада", обяснява Катрин Флик, професор по етика и технология в университета в Стафордшир.
"Това, което изглежда се е случило тук, е, че Илон Мъск е взел по-малко способен модел", смята Рос Андерсън, един от съавторите на оригиналната статия, в която е въведен терминът "срив на модела", "и след това го е донастроил, изглежда, като е получил много съдържание, произведено от ChatGPT, от различни места."
Подобен сценарий би бил точно това, за което Андерсън и колегите му предупреждават, че може да се случи.
xAI не отговори на молбата на Fast Company за коментар.
Андерсън предупреждава, че вероятно ситуацията ще се влоши.
"Когато LLM произвеждат съдържание без човешки надзор, те могат да генерират всякакви глупости", казва той. "Щом имате LLM бот, който просто изхвърля всякакви неща в интернет, той може да прави всякакви лоши неща, а вие просто да не знаете."
Почти половината от работещите в платформата Mechanical Turk на Amazon, която често се използва от академични изследователи за събиране на данни и провеждане на експерименти, са съобщили, че са използвали инструменти за генеративен AI, което предполага, че халюцинациите и грешките скоро могат да намерят своето място в научната литература.
Конкретната фраза, която първа е насочила потребителя в X към нещо подозрително, случващо се с Grok, не е съвсем уникална. "Това противоречи на политиката на OpenAI за случаите на употреба" се появява на хиляди уебсайтове преди туита на 9 декември.
В мрежата има около 20 000 резултата, които използват абсолютно същата фраза, допълва FastCompany. Някои от тях са цитати, включени в постове за това как потребители използват ChatGPT неправомерно и се сблъскват с вградените му ограничения, но много от тях са от уебсайтове, които изглежда неволно са включили фразата в съдържание, генерирано от изкуствен интелект, което е било публикувано директно в интернет без редакция.
Накратко: Резултатите от ChatGPT вече са налице, разпръснати из мрежата.
И тъй като новите LLM търсят в интернет повече данни за обучение, все по-вероятно е да открият повече съдържание, генерирано от AI, за по-широка употреба, включително в компаниите и правителствата.
Визуално представяне на щетите, които може да нанесе сривът на модела, е демонстрирано от изследователи от Станфордския университет и Калифорнийския университет в Бъркли, които са захранвали създателите на генеративни изображения с продукти, генерирани от AI.
Изкривяванията и деформациите, които се получават, превръщат напълно нормални човешки лица в гротескни карикатури, тъй като моделът започва да се разпада.
Забавният мем "Make it more", който се разпространява в социалните медии, където потребителите молят генераторите на изображения с AI да направят продукцията им по-екстремна, също подчертава какво може да се случи, когато AI започне да се обучава по генерирана от AI продукция.
"Всяко следващо поколение на даден модел ще бъде много по-малко надеждно като източник на истински факти за света, тъй като всяко от тях ще бъде обучавано с все по-малко надеждни данни", казва Майк Кател, сътрудник по етика в Института "Алън Тюринг".
"Като се има предвид, че точността и надеждността на инструменти като ChatGPT са сериозен проблем сега, представете си колко трудно ще бъде да накараме тези модели да представят реалността, когато все по-голяма част от техните данни за обучение са пълни с генерирани грешки и лъжи?", пита експертът.
Скрита армия наемни работници обучава системите за изкуствен интелект как да анализират данни
Това е проблем, който вероятно само ще се задълбочава, тъй като чатботовете, базирани на LLM, стават все по-разпространени в ежедневието ни, а резултатите от тях – все по-често срещани в нашето онлайн преживяване.
Решението на проблема също няма да е лесно, след като лавината вече е тръгнала по склона.
"xAI просто ще направи някакво изключване на "OpenAI" и други имена на модели и ще замаже проблема, но основният проблем няма да изчезне. Машината ще продължи да изяжда собствените си творения, докато не остане само петно от това, което е било оригинално.", прогнозира проф. Флик.