Gemini 1.5 Pro: Новият модел на Google е суров опонент за GPT-4
Google представи Gemini 1.5 - семейство мултимодални модели за взаимодействие с текст, изображения и звук, за които се твърди, че превъзхождат конкурентни инструменти.
Gemini 1.5 Pro, първият член на моделната фамилия, се представя сравнимо с модела Ultra 1.0 на уеб титана, който дебютира миналата седмица, но според компанията го прави с по-малко изчислителни ресурси.
Демис Хасабис, главен изпълнителен директор на Google DeepMind заяви, че Gemini 1.5 Pro е по-ефективен за обучение и обслужване благодарение на архитектурата си Mixture-of-Experts (MoE).
Най-новият модел на Google за изкуствен интелект превъзхожда конкурентите в сравнителните тестове въз основа на броя на токените, които може да приеме в заявка, съобщава The Verge.
Един токен представлява около четири знака на английски език.
Сундар Пичай обяви нови съкращения и амбициозни цели за AI в Google
На практическо ниво Gemini 1.5 може да получава текст, код, изображения, аудио и видео, да отговаря на въпроси на естествен език за този материал, както и да генерира такъв вид съдържание.
Това означава, че когато е представен дълъг документ за обработка - до 10 млн. токена - Gemini 1.5 може да отговори правилно на конкретна заявка в повече от 99 процента от случаите.
Според изследователите на Google “капацитетът на Gemini от 10 млн. токена представлява скок в поколенията спрямо съществуващите модели като Claude 2.1 и GPT-4 Turbo, които за момента достигат максимален капацитет от съответно 200 хил. и 128 хил. токена”.
"Gemini Ultra в момента побеждава всички съществуващи алтернативи в широк спектър от бенчмаркове", казва Франсоа Шоле, софтуерен инженер в Google.
Позовавайки се на такива тестове, Джеф Дийн, главен научен сътрудник в Google DeepMind казва:
"За текст Gemini 1.5 Pro постига 100 процента отзоваване до 530 хил. лексеми, 99,7 процента до 1 млн. лексеми и 99,2 процента точност до 10 млн."
Големият капацитет на модела му позволява да извършва подвизи като поглъщане на 402-страничната стенограма от полета на Apollo 11 (326 914 токена) и след това, когато му бъде зададен въпрос, да открие "три комични момента" в шегите между астронавтите.
На заявка относно Sherlock Jr, 45-минутен филм на Бъстър Кийтън от 1924 г., питаща : "Кажете ми някаква ключова информация от листчето, което е извадено от джоба на героя, както и времевия код на този момент", инструментът изрецитира текста на бележката във филма дословно, заедно с времето, когато се е случила тази сцена.
Google пуска Gemini 1.5 в ранен достъп за разработчици и корпоративни клиенти.
Компанията планира да го направи по-широко достъпен в близкото бъдеще.
В момента Gemini 1.0 е достъпна за потребителите, заедно с вариант Pro, който струва 20 долара месечно.