Google представи Gemini 1.5 - семейство мултимодални модели за взаимодействие с текст, изображения и звук, за които се твърди, че превъзхождат конкурентни инструменти.

Gemini 1.5 Pro, първият член на моделната фамилия, се представя сравнимо с модела Ultra 1.0 на уеб титана, който дебютира миналата седмица, но според компанията го прави с по-малко изчислителни ресурси.

Демис Хасабис, главен изпълнителен директор на Google DeepMind заяви, че Gemini 1.5 Pro е по-ефективен за обучение и обслужване благодарение на архитектурата си Mixture-of-Experts (MoE).

Най-новият модел на Google за изкуствен интелект превъзхожда конкурентите в сравнителните тестове въз основа на броя на токените, които може да приеме в заявка, съобщава The Verge.

Един токен представлява около четири знака на английски език.

Сундар Пичай обяви нови съкращения и амбициозни цели за AI в Google

На практическо ниво Gemini 1.5 може да получава текст, код, изображения, аудио и видео, да отговаря на въпроси на естествен език за този материал, както и да генерира такъв вид съдържание.

Това означава, че когато е представен дълъг документ за обработка - до 10 млн. токена - Gemini 1.5 може да отговори правилно на конкретна заявка в повече от 99 процента от случаите.

Според изследователите на Google “капацитетът на Gemini от 10 млн. токена представлява скок в поколенията спрямо съществуващите модели като Claude 2.1 и GPT-4 Turbo, които за момента достигат максимален капацитет от съответно 200 хил. и 128 хил. токена”.

"Gemini Ultra в момента побеждава всички съществуващи алтернативи в широк спектър от бенчмаркове", казва Франсоа Шоле, софтуерен инженер в Google.

Позовавайки се на такива тестове, Джеф Дийн, главен научен сътрудник в Google DeepMind казва:

"За текст Gemini 1.5 Pro постига 100 процента отзоваване до 530 хил. лексеми, 99,7 процента до 1 млн. лексеми и 99,2 процента точност до 10 млн."

Google ребрандира Bard AI, обявявайки нови услугиBard, основният конкурент на ChatGPT, вече се нарича Gemini - същото име като набора от модели на изкуствен интелект, които го захранват

Големият капацитет на модела му позволява да извършва подвизи като поглъщане на 402-страничната стенограма от полета на Apollo 11 (326 914 токена) и след това, когато му бъде зададен въпрос, да открие "три комични момента" в шегите между астронавтите.

На заявка относно Sherlock Jr, 45-минутен филм на Бъстър Кийтън от 1924 г., питаща : "Кажете ми някаква ключова информация от листчето, което е извадено от джоба на героя, както и времевия код на този момент", инструментът изрецитира текста на бележката във филма дословно, заедно с времето, когато се е случила тази сцена.

Google пуска Gemini 1.5 в ранен достъп за разработчици и корпоративни клиенти.

Компанията планира да го направи по-широко достъпен в близкото бъдеще.

В момента Gemini 1.0 е достъпна за потребителите, заедно с вариант Pro, който струва 20 долара месечно.