DeepSeek пуска AI модел от ново поколение – с какво е различен и има ли „уловка“
Китайският стартъп обещава, че ще направи мощния AI по-достъпен за разработчици, изследователи и по-малки компании, което потенциално може да доведе до вълна от иновативни приложения
&format=webp)
Новият експериментален модел на DeepSeek обещава да повиши ефективността и да подобри способността на изкуствения интелект да обработва голямо количество информация на много по-ниска цена, но въпреки това остават въпроси относно ефективността и безопасността на архитектурата, съобщава CNBC.
Китайският стартъп предизвика фурор в Силициевата долина, когато миналата година изненадващо пусна на пазара първия си модел R1, показвайки, че е възможно да се обучават големи езикови модели (LLM) бързо, на по-малко мощни чипове и с по-малко ресурси.
В понеделник компанията пусна DeepSeek-V3.2-Exp, експериментална версия на настоящия DeepSeek-V3.1-Terminus, която доразвива мисията си за повишаване на ефективността на AI системите, според публикация във форума за AI Hugging Face.
„DeepSeek V3.2 продължава да се фокусира върху ефективността, намаляването на разходите и споделянето на отворен код“, заяви пред CNBC Адина Якефу, ръководител на китайската общност в Hugging Face.
„Голямото подобрение е нова функция, наречена DSA (DeepSeek Sparse Attention), която подобрява AI при обработката на дълги документи и разговори. Тя също така намалява разходите за работа на AI наполовина в сравнение с предишната версия.“
„Това е важно, защото трябва да направи модела по-бърз и по-рентабилен за използване, без забележимо понижение на производителността“, коментира Ник Пейшънс, вицепрезидент и ръководител на AI в The Futurum Group.
„Това прави мощния AI по-достъпен за разработчици, изследователи и по-малки компании, което потенциално може да доведе до вълна от иновативни приложения.“
AI моделът взема решения въз основа на тренировъчни данни и нова информация, като например подсказка.
Например, ако една авиокомпания иска да намери най-добрия маршрут от А до Б, въпреки че има много варианти, не всички са осъществими. Като отсявате по-малко осъществимите маршрути, значително намалявате времето и в крайна сметка парите, необходими за пътуването. Точно това прави новият модел – взема предвид само данните, които счита за важни за задачата, за разлика от другите, които обработват всички данни.
Новите възможности способстват ефективността и способността за мащабиране на изкуствения интелект, тъй като са необходими по-малко ресурси, но едно от притесненията е, че това може да доведе до спад в надеждността на моделите поради липсата на контрол върху това как и защо се пренебрегва информация.
„Реалността е, че тези модели са загубили много нюанси. И тогава истинският въпрос е: имат ли те подходящия механизъм за изключване на неважните данни или механизъм, който изключва наистина важни данни, и тогава резултатът ще бъде много по-малко релевантен?“, пита Екатерина Алмъск, съосновател и управляващ партньор на фонда за рисков капитал BlankPage Capital.
Това може да е особено проблемно за безопасността и приложимостта на изкуствения интелект, и да не е „най-оптималният или най-безопасният“ модел в сравнение с конкурентите или традиционните архитектури.
DeepSeek обаче твърди, че експерименталният модел работи на равнището на V3.1-Terminus.
Компанията освен това е споделила действителния програмен код и инструментите, необходими за използването на модела. „Това означава, че други хора могат да се учат от него и да създават свои подобрения.“
Но за Алмъск самата същност означава, че технологията може да не е защитима.
„Подходът не е супер нов“, казва тя, като отбелязва, че индустрията „говори за разредени модели от 2015 г.“ и че DeepSeek не може да патентова своята технология, тъй като е с отворен код. Следователно конкурентното предимство трябва да е в това как решава коя информация да включи, допълва експертът.
Самата компания признава, че V3.2-Exp е „междинна стъпка към нашата архитектура от следващо поколение“, според публикацията в Hugging Face.
„DeepSeek играе дългосрочна игра, за да поддържа интереса на общността към своя напредък. Хората винаги ще избират това, което е евтино, надеждно и ефективно“, допълват експертите.