Иновация или дестилация: Как е създаден новият модел на DeepSeek?
R1-0528 предпочита думи и изрази, подобни на тези, които Google Gemini 2.5 Pro предпочита, което повдига обосновани съмнения

Миналата седмица китайската лаборатория DeepSeek пусна актуализирана версия на своя AI модел R1, който се представя добре в редица математически и кодиращи тестове. Компанията не разкри източника на данните, които е използвала за обучението, но някои AI изследователи предполагат, че поне част от тях са дошли от AI семейството Gemini на Google.
Сам Пейч, разработчик от Мелбърн, който създава оценки за „емоционалната интелигентност“ на изкуствения интелект, публикува свое разкритие, което, по думите му, е доказателство, че най-новият модел на DeepSeek е обучен на базата на резултатите от Gemini.
Моделът на DeepSeek, наречен R1-0528, предпочита думи и изрази, подобни на тези, които Google Gemini 2.5 Pro предпочита, пише Пейч в публикация в X, цитирана от TechCrunch.
Това не е неопровержимо доказателство. Но друг разработчик, който се занимава с „оценка на свободата на словото“ за AI, отбелязва, че следите на модела на DeepSeek – „мислите“, които моделът генерира, докато работи за достигане на заключение – „се четат като следи на Gemini“.
DeepSeek е била обвинявана и преди, че обучава системите си с данни от конкурентни AI модели. През декември разработчици забелязаха, че моделът V3 на DeepSeek често се идентифицира като ChatGPT на OpenAI. Това предполага, че може да е бил обучен върху чат логове на ChatGPT.
По-рано тази година OpenAI съобщи пред Financial Times, че е намерила доказателства, свързващи DeepSeek с използването на дестилация – техника за обучение на AI модели чрез извличане на данни от по-големи и по-способни такива. Според Bloomberg Microsoft, близък сътрудник и инвеститор на OpenAI, е открил, че в края на 2024 г. са били извлечени големи количества данни чрез акаунти на разработчици на OpenAI, за които от компанията смятат, че са свързани с DeepSeek.
Дестилацията не е необичайна практика, но условията за ползване на OpenAI забраняват на клиентите да използват резултатите от моделите на компанията за създаване на конкурентни платформи.
Все пак трябва да е ясно, че много модели се самоидентифицират погрешно и се сближават по отношение на думите и изразите, които използват. Това се дължи на факта, че отворената мрежа, от която AI компаниите черпят по-голямата част от данните си за обучение, се превръща в сметище за AI отпадъци. Фермите за съдържание използват AI, за да създават кликбейт, а ботовете заливат Reddit и X. Това „замърсяване“, ако може да се нарече така, затруднява значително филтрирането на AI резултатите от тренировъчните набори от данни.
Все пак AI експерти като Натан Ламбърт, изследовател в нестопанския AI изследователски институт AI2, не смятат, че е изключено R1 на DeepSeek да е трениран на данни от Gemini на Google.
„Ако бях DeepSeek, определено бих създал набор от синтетични данни от най-добрия API модел, който съществува“, пише Ламбърт в публикация в X. „DeepSeek няма достатъчно GPU и разполага с много пари. За тях това буквално означава повече изчислителна мощност“.
Отчасти в опит да предотвратят дестилацията, AI компаниите засилват мерките за сигурност. През април OpenAI започна да изисква от организациите да преминат през процес на проверка на самоличността, за да получат достъп до определени усъвършенствани модели. Процесът изисква лична карта, издадена от правителството на една от страните, поддържани от API на OpenAI. Китай не е в списъка.
От друга страна, Google наскоро започна да „обобщава“ следите, генерирани от моделите, достъпни чрез платформата за разработчици AI Studio. Това прави по-трудно обучението на конкурентни на Gemini модели.
През май Anthropic пък обяви, че ще започне да обобщава следите на собствения си модел, позовавайки се на необходимостта да защити „конкурентните си предимства“.