Модели с AI използват снимки с насилие за генериране на изображения
В основата на популярни инструменти за генериране на изображения с изкуствен интелект стоят хиляди снимки със сексуално насилие над деца.
Това установява ново проучване на Станфордската интернет обсерватория.
Същите тези изображения улесняват системите за изкуствен интелект да създават реалистични и явни изображения на фалшиви деца, както и да превръщат снимки в социалните мрежи на напълно облечени истински тийнейджъри в голи тела, обяснява Euronews.
Доскоро изследователите на злоупотреби, смятаха, че единственият начин, по който някои AI инструменти произвеждат изображения на деца, е като комбинират порнография за възрастни с обикновeни снимки на деца.
Но Станфордската интернет обсерватория открива над 3200 изображения на предполагаеми сексуални злоупотреби с деца в гигантската база данни на LAION - индекс на онлайн изображения, използван за обучение на водещи създатели на изображения с AI като Stable Diffusion.
Групата за наблюдение работи с Канадския център за закрила на детето и други благотворителни организации за борба със сексуалното насилие, за да идентифицира незаконните материали и да съобщи за оригиналните връзки към снимките на правоприлагащите органи.
Реакцията е незабавна. След публикуването на доклада, LAION заяви, че временно премахва своите набори от данни.
LAION – съкращение от нестопанската организация Large-scale Artificial Intelligence Open Network (Отворена мрежа за широкомащабен изкуствен интелект), заяви, че "има политика на нулева толерантност към незаконно съдържание и от съображения за сигурност свалихме наборите от данни на LAION, за да се уверим, че те са безопасни, преди да ги публикуваме отново".
"Не можем да върнем това назад"
Макар че изображенията представляват само малка част от индекса на LAION, съдържащ около 5,8 милиарда изображения, групата от Станфорд твърди, че те вероятно оказват влияние върху способността на инструментите на изкуствения интелект да генерират вредни резултати и да засилват насилието над реални жертви.
Този проблем не е лесен за решаване и води началото си от това, че много проекти за генеративен изкуствен интелект са "ефективно изстреляни на пазара" и са направени широко достъпни, тъй като областта е толкова конкурентна, смяра главният технолог на Станфордската интернет обсерватория Дейвид Тийл, автор на доклада.
"Вземането на цял набор от данни от интернет и използването му за обучение на модели е нещо, което би трябвало да бъде ограничено до изследователска дейност, ако изобщо е имало такава.", казва Тийл.
Потребител на LAION, който е помогнал за разработването на набора от данни, е базираният в Лондон стартъп Stability AI, създател на моделите за преобразуване на текст в изображения Stable Diffusion.
Новите версии на Stable Diffusion направиха много по-трудно създаването на вредно съдържание, но по-стара версия, представена миналата година - която Stability AI казва, че не е пускала, все още е вградена в други приложения и инструменти и остава "най-популярният модел за генериране на изображения", според доклада на Станфорд.
"Не можем да върнем това назад. Този модел е в ръцете на много хора на техните локални устройства", казва Лойд Ричардсън, директор на информационните технологии в Канадския център за закрила на детето, който управлява горещата линия на Канада за подаване на сигнали за сексуална експлоатация онлайн.
Stability AI заяви, че хоства само филтрирани версии на Stable Diffusion и че "откакто пое изключителното разработване на Stable Diffusion, Stability AI предприе проактивни мерки за намаляване на риска от злоупотреба".
"Тези филтри премахват опасното съдържание, което не достига до моделите", се казва в изявление на компанията. "Премахвайки това съдържание, преди то изобщо да достигне до модела, можем да помогнем за предотвратяване на генерирането на опасно съдържание от модела".
LAION е идея на германския изследовател и преподавател Кристоф Шуман, който по-рано тази година заяви, че част от причините да направи такава огромна визуална база данни публично достъпна е да гарантира, че бъдещето на развитието на изкуствения интелект не се контролира от шепа мощни компании.
"Ще бъде много по-безопасно и много по-справедливо, ако успеем да го демократизираме, така че цялата изследователска общност и цялата общественост да могат да се възползват от него", казва той.
Голяма част от данните на LAION идват от друг източник - Common Crawl, хранилище на данни, но изпълнителният директор на Common Crawl Рич Скрента заяви, че е "задължение" на LAION да сканира и филтрира това, което взема, преди да го използва.
LAION съобщи, че е разработила "строги филтри" за откриване и премахване на незаконно съдържание, преди да публикува своите набори от данни и че все още работи по усъвършенстването им.
В доклада на Станфорд се признава, че разработчиците на LAION са направили някои опити да филтрират съдържание, но е трябвало да се консултират по-рано с експерти по детска безопасност.
Много генератори на текст към изображения са извлечени от базата данни на LAION, макар че не винаги е ясно кои. OpenAI, създателят на DALL-E и ChatGPT, заяви, че не използва LAION и е настроил моделите си така, че да отказват заявки за сексуално съдържание, включващо непълнолетни.
Google изгради своя модел за преобразуване на текст в изображение Imagen въз основа на набор от данни LAION, но през 2022 г. реши да не го публикува, след като одит на базата данни "разкри широк спектър от неподходящо съдържание, включително порнографски изображения, расистки обиди и вредни социални стереотипи".
Как се защитават личните данни на децата в интернет
Опитите да се изчистят данните със задна дата са трудни, затова Станфордската интернет обсерватория призовава за по-драстични мерки.
Една от тях е всеки, който е изградил учебни комплекти от LAION-5B - наречен така заради съдържащите се в него повече от 5 милиарда двойки изображение-текст, да ги "изтрие или да работи с посредници за изчистване на материала".
Друг начин е да се направи така, че по-старата версия на Stable Diffusion да изчезне. Легитимните платформи могат да спрат да предлагат нейни версии за изтегляне, особено ако те се използват за генериране на изображения с цел злоупотреба и нямат предпазни мерки за блокирането им.
Докладът на Станфорд също така поставя под въпрос дали снимки на деца – дори и най-обикновените, трябва да се въвеждат в системи за изкуствен интелект без съгласието на семейството им поради федералния Закон за защита на личната информация на децата в интернет.
Ребека Портноф, директор на отдела за данните в организацията за борба със сексуалното насилие над деца Thorn, заяви, че нейната организация е провела проучване, което показва, че разпространението на изображения, генерирани от изкуствен интелект, сред насилниците е малко, но постоянно нараства.
Разработчиците могат да намалят тези вреди, като се уверят, че наборите от данни, които използват за модели с AI, са чисти от злоупотреби.
"В момента това не се случва, но е нещо, което според мен може и трябва да се направи", допълва Портноф.