Най-важният AI модел за 2025 г.? Gemini 2.5 Pro на Google е сериозен претендент
Новият модел на Google впечатлява с логическо мислене програмиране и разбиране на сложна информация
&format=webp)
Само за броени дни новият reasoning модел се изкачи на върха в серия от тестове с кодиране, математически изчисления и логическо мислене, като се превърна в сериозен претендент за най-добрия AI модел в света към момента.
Но какво го прави толкова специален?
Моделът не просто „мисли“ – всъщност, той разсъждава в реално време.
Отговорите му се базират на комбинация от тренировъчни данни и логически изводи, направени на момента в отговор на вашия въпрос.
Освен това, Gemini 2.5 Pro може да търси в интернет и разполага с доста актуална информация – данните му са актуализирани към края на януари 2025 г.
През 2024 г. изследователите правят стъпка напред, когато започват да тренират AI моделите си не просто да „знаят“, а да мислят, когато взаимодействат с потребителите. Това означава, че вече говорим за AI с огромен капацитет за обработка и задържане на данни – Gemini 2.5 Pro борави с до един милион токена контекст.
Да, правилно разбрахте – това е все едно да запомни цяла книга и после да ти отговаря, като се води по нея, все едно току-що я е прочел.
Проблемът е, че много от моделите се „задъхват“, когато трябва да навигират през толкова информация. При Gemini обаче нещата стоят по различен начин. Каналът AI Explained посочва, че моделът се представя впечатляващо на новия тест Fiction.liveBench, който измерва способността на изкуствения интелект да разбира и запомня сложна, художествена информация.
Например: четеш новела, а после отговаряш на въпроси, които изискват разбиране на героите, сюжетните обрати и по-дълбок контекст.
Докато повечето гиганти се справят добре с по-малък обем от информация, Gemini 2.5 Pro блести именно когато обемът се увеличава. При тези обстоятелства моделът на Google показва впечатляващо ниво на разбиране, което го изстрелва далеч пред конкурентите му.
Моделът вече е лидер в няколко от най-трудните тестове в света на AI. В MathArena – бенчмарк с въпроси от математически олимпиади и състезания, където се оценява не само верният отговор, но и логиката, по която се достига до него – повечето топ модели от OpenAI, Anthropic и DeepSeek не минават дори 5% от максимума. А Gemini 2.5 Pro достига до впечатляващите 24.4%.
Има и още нещо: в изпитанието Humanity’s Last Exam, което е проектирано да покаже кога един AI модел надскача човешките експерти, Gemini 2.5 Pro постига 18.8%, изпреварван само от Deep Research модела на OpenAI.
Междувременно, Gemini вече е номер едно в класацията LMArena, където се събират и сравняват най-добрите AI резултати в реално време.
В програмирането моделът също се справя впечатляващо. На LiveCodeBench моделът на Google постига 70.4%, малко зад лидера в надпреварата – o3-mini на OpenAI, с 74.1%.
В SWE-bench, който оценява способностите на модела да действа като агент-програмист, Gemini постига резултат от 63.8%, докато най-новият Claude 3.7 Sonnet на Anthropic достига 70.3%.
И за финал – визуалното разбиране.
В теста MMMU, който измерва как моделите „разчитат“ изображения, Google отново е лидер, като изпреварва конкурентите от OpenAI, Anthropic и xAI с около 6 точки разлика.
Най-хубавото е, че докато в началото Gemini 2.5 Pro беше достъпен само за абонати, вече може да се използва напълно безплатно от всички потребители.