Китайската компания за изкуствен интелект DeepSeek разтърси пазарите тази седмица с твърденията, че новият ѝ модел превъзхожда този на OpenAI, а създаването му струва само част от цената на водещата платформа.

Настояването, че големият езиков модел на DeepSeek е струвал едва 5,6 млн. долара, предизвикаха загриженост относно главозамайващите суми, които технологичните гиганти понастоящем харчат за изчислителна инфраструктура за обучение и изпълнение на напреднали задачи с изкуствен интелект.

Но не всички са убедени в твърденията на DeepSeek.

CNBC се обръща към експерти от бранша за мнението им относно DeepSeek и как всъщност стои стартъпа в сравнение с OpenAI, създател на ChatGPT, който предизвика революцията в областта на AI.

Какво представлява DeepSeek?

Миналата седмица DeepSeek пусна R1 - своя нов модел за разсъждения, който се конкурира с o1 на OpenAI. Този тип платформи разделят подканите на по-малки части и разглежда множество подходи, преди да генерира отговор. Те са предназначени да обработват сложни проблеми по начин, подобен на този при хората.

DeepSeek е основана през 2023 г. от Лианг Уенфенг, съосновател на фокусирания върху AI хедж фонд High-Flyer, за да се разработва големи езикови модели. Крайната му цел е създаване на общ изкуствен интелект или AGI. Това понятие се отнася до идеята за изкуствен интелект, който се равнява или надминава човешкия в широк спектър от задачи.

Голяма част от технологията, която стои зад R1, не е нова. Това, което е забележително обаче, е, че DeepSeek е първата компания, която я внедрява във високопроизводителен модел, като според твърденията тя е успяла значително да намали изискванията за мощност.

„Изводът е, че има много възможности за развитие на тази индустрия. Високотехнологичният чип - капиталоемък начин - е един от технологичните подходи“, казва Сяоменг Лу, директор на геотехнологичната практика на Eurasia Group. „Но DeepSeek доказва, че все още се намираме в начален етап на развитие на AI и пътят, установен от OpenAI, може да не е единственият за постигането на високоспособен AI“.

По какво се различава от OpenAI?

DeepSeek разполага с две основни системи, които предизвикаха шум в общността на AI: V3, големият езиков модел, който поддържа нейните продукти, и R1, нейният модел за разсъждение.

И двата са с отворен код, което означава, че основният им код е свободен и публично достъпен за други разработчици, които могат да го персонализират и разпространяват.

Моделите на DeepSeek са много по-малки от много други големи езикови модели. V3 има общо 671 милиарда параметъра или променливи, които моделът научава по време на обучението. Въпреки че OpenAI не разкрива параметри, експертите смятат, че последният ѝ модел има поне един трилион.

По отношение на производителността DeepSeek твърди, че нейният модел R1 е сравним с o1 на OpenAI при задачи за разсъждаване, като се позовава на различни бенчмаркове - AIME 2024, Codeforces, GPQA Diamond, MATH-500, MMLU и SWE-bench Verified.

В техническия доклад на компанията се казва, че нейният модел V3 е струвал само 5,6 млн. долара - малка част от милиардите, които известни западни лаборатории за изкуствен интелект като OpenAI и Anthropic са похарчили, за да обучат и пуснат своите фундаментални системи. Все още не е ясно колко струва работата на DeepSeek.

Ако обаче разходите за обучение са точни, това означава, че моделът е разработен за малка част от тези на конкурентите ѝ.

Даниел Нюман, главен изпълнителен директор на компанията за технологични анализи The Futurum Group, заявява, че тези разработки предполагат „огромен пробив“, въпреки че се съмнява в точноста на цифрите.

„Вярвам, че пробивът на DeepSeek показва значимо пречупване на законите за мащабиране и е истинска необходимост“, казва той. „Въпреки това все още има много въпроси и несигурност около пълната картина на разходите, що се отнася до разработването на DeepSeek“.

Междувременно Пол Триолио, старши вицепрезидент за Китай и водещ в областта на технологичната политика в консултантската компания DGA Group, отбелязва, че е трудно да се направи пряко сравнение между разходите за модела на DeepSeek и тези на големите американски разработчици.

„Цифрата от 5,6 млн. евро за DeepSeek V3 е само за един тренировъчен пробег и компанията подчерта, че тя не представлява общите разходи за научноизследователска и развойна дейност за разработване на модела“, акцентира той. „Тогава общите разходи вероятно са били значително по-високи, но все пак по-ниски от сумата, похарчена от големите американски компании за изкуствен интелект“.

Сравнение на цените на DeepSeek и OpenAI

DeepSeek и OpenAI оповестяват цените за изчисленията на моделите си на своите уебсайтове.

Китайският стартъп твърди, че R1 струва 55 цента за 1 милион токена входни данни - „токени“ се отнасят до всяка отделна единица текст, обработвана от модела - и 2,19 долара за 1 милион токена изходни данни.

За сравнение, страницата на OpenAI за ценообразуване на o1 показва, че тя таксува 15 долара за 1 милион входни токена и 60 долара за 1 милион изходни токена. За GPT-4o mini, по-малкия и евтин езиков модел на OpenAI, тя начислява 15 цента за 1 милион входни токена.

Скептицизъм по отношение на чиповете

Разкриването на R1 от DeepSeek вече доведе до разгорещен обществен дебат относно достоверността на твърденията ѝ - не на последно място, защото моделите ѝ са създадени въпреки контрола върху износа от САЩ, ограничаващ използването на усъвършенствани чипове за изкуствен интелект в Китай.

Стартъпът твърди, че е постигнала пробива си, използвайки по-стари технологии на Nvidia, включително чипове H800 и A100, които отстъпват на авангардните H100. Те не могат да бъдат изнасяни за Китай.

Въпреки това в коментар пред CNBC миналата седмица главният изпълнителен директор на Scale AI Александър Уанг заявява, че според него DeepSeek е използвал забранените чипове. Стартъпът отрича обвиненията.

Истинско откритие или не?

Експертите от бранша изглежда са единодушни, че постигнатото от DeepSeek е впечатляващо, въпреки че много от тях изразяват скептицизъм по отношение на някои от твърденията на китайската компания.

„DeepSeek е впечатляваща, но нивото на истерия е прекалено“, пише американският предприемач Палмър Люки, основал Oculus и Anduril, в X. „Цифрата от 5 млн. долара е фалшива. Тя е прокарана от китайски хедж фонд, за да забави инвестициите в американски стартъпи в областта на изкуствения интелект, да обслужи собствените си шорткъти срещу американски титани като Nvidia и да прикрие заобикалянето на санкции“.

Сена Реджал, главен търговски директор на NetMind, стартъп със седалище в Лондон, който предлага достъп до моделите на DeepSeek чрез разпределена мрежа от графични процесори, не вижда причина да не вярва на казаното от стартъпа.

„Дори и да се разминава с определен коефициент, все пак е много ефективен“, казва Реджал пред CNBC. „Логиката на това, което са обяснили, е много разумна“.

Други пък твърдят, че технологията на DeepSeek може да не е създадена от нулата.

„DeepSeek прави същите грешки, които прави и о1, което е силна индикация, че технологията е била открадната“, категоричен е милиардерът инвеститор Винод Кхосла в X, без да дава повече подробности.

Това е твърдение, за което намекна и самата OpenAI, като в изявление от сряда обяви, че DeepSeek може да е използвала „неправомерно“ изходни данни от нейните модели за разработване на своя - метод, наречен „дестилация“.

„Предприемаме агресивни, проактивни контрамерки за защита на нашите технологии и ще продължим да работим в тясно сътрудничество с правителството на САЩ, за да защитим най-способните модели, които се изграждат тук“, посочи говорител на OpenAI пред CNBC.

Комерсиализация на AI

Както и да се развие проверката около DeepSeek, учените в областта на изкуствения интелект са единодушни, че това е положителна стъпка за индустрията.

Ян Лекун, главен учен по AI в Meta, заявява, че успехът на DeepSeek представлява победа за моделите с отворен код, а не непременно победа на Китай над САЩ. Meta стои зад популярен AI модел с отворен код, наречен Llama.

„На хората, които виждат резултатите на DeepSeek и си мислят: „Китай надминава САЩ в областта на AI“, трябва да им кажа, че четат това погрешно. Правилният прочит е: „Моделите с отворен код надминават патентованите“, казва той в публикация в LinkedIn. „DeepSeek се възползва от отворените изследвания и отворения код (напр. PyTorch и Llama от Meta). Те предложиха нови идеи и ги изградиха върху работата на други хора. Тъй като работата им е публикувана и е с отворен код, всеки може да се възползва от нея. Това е силата на отворените изследвания и отворения код“.

Междувременно Мат Калкинс, главен изпълнителен директор на американската софтуерна компания Appian, казва, че успехът на DeepSeek просто показва, че в бъдеще моделите на изкуствения интелект ще стават все повече стока.

„По мое мнение ще станем свидетели на стоковата реализация на AI. Много компании ще постигнат конкурентоспособни модели, а липсата на диференциация ще бъде лоша за първите, които правят големи разходи“, смята той.