Най-новият опит на Пекин да контролира начина, по който изкуственият интелект информира китайските интернет потребители, идва под формата на чатбот, обучен на мислите на президента Си Дзинпин.

Най-новият голям езиков модел на страната се е обучавал от политическата философия на своя лидер, известна като "Мислите на Си Дзинпин за социализма с китайски характеристики за новата ера", както и от друга литература, предоставена от Администрацията на киберпространството на Китай (CAC).

"Експертизата и авторитетът на корпуса гарантират професионализма на генерираното съдържание", пише в публикация в социалните медии в понеделник, посветена на новия LLM на CAC.

Усилията да се гарантира, че AI разбира философията на Си, идват в момент, когато китайските политици се ориентират към балансиране между драконовския контрол върху свободата на словото в страната и насърчаването на технологичното развитие чрез създаването на конкуренти на ChatGPT.

Засега новият модел се използва в изследователски център под ръководството на мощния интернет регулатор, но според източник на Financial Times, участвал в проекта, в крайна сметка може да бъде пуснат за по-широка употреба. Новият модел може да отговаря на въпроси, да създава доклади, да обобщава информация и да превежда между китайски и английски език, информира още публикацията.

Създаването на LLM следва широките усилия на китайските политици да разпространяват идеите на Си за политиката, икономиката и културата в различни формати.

От името на Си са публикувани над дузина книги, а неговите бестселъри обикновено заемат централно място на панаирите на книгата в страната.

Властите също така изискват от децата на 10-годишна възраст да изучават неговата политическа философия. Те създадоха приложението Study Xi Strong Nation, за да обучават и изпитват знанията на около 100 млн. партийни членове. През 2018 г. идеите му бяха вписани в държавната конституция.

CAC, която е водеща в издаването на правила за генеративния AI в Китай въведе лицензионен режим, задължаващ доставчиците на технологията "да въплъщават основните социалистически ценности" и казва, че генерираното съдържание не може да "съдържа информация, която подкопава държавната власт". Дружествата носят отговорност за резултатите от чатботовете им.

Това е особено предизвикателство за разработчиците на модели поради сравнително оскъдните набори от данни на китайски език, които са на разположение за обучение на техните модели, отбелязва Financial Times. Повечето инструменти се обучават и върху информация на английски език, което въвежда потенциал за генериращ AI да произвежда отговори, които са в разрез с речевите норми на Китай.

Технологични гиганти като Baidu и Alibaba са гарантирали, че техните модели стриктно контролират генерираното съдържание, свързано със Си или други потенциално чувствителни въпроси. Чатботовете и на двете групи обикновено молят потребителите да рестартират чата, когато им се даде заявка по чувствителни теми.

За да помогне на разработчиците да се справят с проблема, Асоциацията за киберсигурност на Китай, организация с нестопанска цел, свързана с CAC, публикува през декември първата публична база данни от 100 млн. записа на "висококачествени и надеждни данни", които групите да използват за обучение на модели.

Според документи, прегледани от FT, обучителният набор се основава в голяма степен на правителствени разпоредби и политически документи, доклади на държавните медии и други подобни публикации.

Един от десетките документи в пакета данни съдържа 86 314 споменавания на Си Дзинпин. "Нека се обединим по-тясно около Централния комитет на партията с другаря Си Дзинпин в основата му", гласи един ред, цитиран от изданието.

Трябва да "гарантираме, че в мисленето, политиката и действията си винаги сме в съответствие с Централния комитет на партията с генерален секретар Си Дзинпин в основата му", пише друг.