Новина за корумпиран член на партията в Китай. Оплакване за бедността в селските райони. Призив за помощ от предприемач, тормозен от полицията.

Това са само част от 133 000 реални примера, използвани за обучение на AI модел, създаден да открива и маркира всяко съдържание, което китайската държава счита за „чувствително“, пише TechCrunch.

Изтекла база данни разкрива как Пекин изгражда ново поколение машина за налагане на цензура - значително по-мощна и прецизна от всичко, на което сме били свидетели досега.

Технологията отива много по-далеч от класическите теми табу, като клането на площад „Тянанмън“, защото е способна да разпознава дори най-дребните прояви на критика.

Основната ѝ цел е всеки текст, дори леко „деликатен“, да бъде засечен и маркиран в реално време.

Ако досега цензурата в Китай разчиташе на хора и ключови думи, то новата AI система обещава нещо далеч по-мащабно.

Според изследователя Сяо Цианг от UC Berkeley, това е ясно доказателство, че държавата иска да използва езиковите модели, за да повиши значително нивото на репресия.

И не, това не е единичен случай - през февруари OpenAI съобщи, че организации, свързани с китайската държава, са използвали техни модели, за да следят антиправителствено съдържание.

Най-интересното в случая е, че базата данни не е добита чрез хакерски пробив - тя е била публично достъпна на сървър на Baidu и е открита от независимия изследовател NetAskari.

Последните записи са от декември 2024 г., което показва, че проектът е напълно актуален.

Самата система работи с подкани, подобни на тези, които самите ние използваме в ChatGPT: „Открий дали текстът съдържа чувствителна информация за политика, военни въпроси или социални проблеми.“

Всичко, свързано с Тайван, политическа сатира, скандали с храна и замърсяване, военни учения - веднага се маркира като съдържание с „чувствителна информация“.

TechCrunch получава достъп до 10 характерни текста от базата с данни, които разкриват колко далеч всъщност е стигнала цензурата в Китай.

Един от постовете е на бизнесмен, който се оплаква от местни полицаи, изнудващи предприемачи - практика, която зачестява на фона на икономическите трудности в страната.

Друг описва тъжната картина в селските райони: обезлюдени села, в които живеят само възрастни хора и деца.

В трети се съобщава как Китайската комунистическа партия е изключила корумпиран служител, който вярвал повече в суеверия, отколкото в марксизма.

В данните могат да бъдат открити и далеч по-чувствителни теми - военни разработки, стратегически коментари за Тайван и дори китайската поговорка „Когато дървото падне, маймуните бягат“, често използвана като метафора за краткотрайната власт.

Подобна фраза звучи безобидно за човек, но за един LLM, специално обучен да цензурира, тя е със „с висока чувствителност“.

Авторът на базата данни е неизвестен, но в нея ясно е посочено предназначението ѝ: „работа с общественото мнение“.

Според експерти това е често използван евфемизъм за пропаганда и контрол, ръководени от Администрацията по киберпространството на Китай (CAC) - институцията, отговорна за дигиталната цензура.

Всъщност президентът Си Дзинпин многократно е наричал интернет „първата линия“ в битката за общественото мнение, а сега тази линия става значително по-прецизна.

Модели като DeepSeek надграждат класическите алгоритми за цензура, които блокират думи като „Тянанмън“ или „Си Дзинпин“, а новото поколение AI е способно да засича и най-малкото недоволство - и да се усъвършенства в задачата си, като постоянно се „храни“ с още данни.

Според OpenAI, китайските структури вече използват генеративен изкуствен интелект, за да следят социалните мрежи - особено публикации, свързани с човешките права и протести. Същите технологии се използват и за разпространяване на критики срещу известни противници на режима, като Цай Ся - бивш преподавател, превърнал се в открит опонент на властта.

„Важно е да осъзнаем, че AI цензурата вече се развива - тя прави държавния контрол по-прецизен и мащабен от всякога“, казва изследователят Сяо Цианг от UC Berkeley пред TechCrunch.