Google DeepMind прави голяма стъпка към бъдещето на роботите с изкуствен интелект - и този път те не просто разбират текст, а действат в реалния свят.

Доскоро AI блестеше главно в текстовата комуникация, с чатботове като ChatGPT и Gemini 2.0, които променят начина, по който човекът взаимодейства с технологиите. DeepMind обаче има по-амбициозна цел - да изведе изкуствения интелект извън дигиталния свят и да му придаде физическа форма, пише WIRED.

Компанията представя Gemini Robotics - нова версия на своя генеративен модел, която комбинира език, визия и движение, за да управлява роботи с висока адаптивност.

Във видео демонстрация DeepMind показва роботизирани ръце, които изпълняват команди в реално време - сгъват хартия, подават зеленчуци, поставят очила в калъф и извършват други фини манипулации.

Най-важното тук е, че изкуственият интелект свързва визуализацията с възможни действия, като се адаптира към различен хардуер.

Компанията представя и версия Gemini Robotics-ER (Embodied Reasoning) - модел, който разбира пространството и обектите около себе си, но без да има директен контрол върху движенията.

Идеята е изследователи и инженери да го използват за създаването на свои собствени роботи.

Един от най-интересните експерименти беше с Apollo - хуманоидния робот на Apptronik, който се управлява от новия модел. Видеото показа как Apollo комуникира с човек и подрежда букви върху масата по команда.

„Вградихме концептуалното разбиране на Gemini 2.0 в роботиката“, коментира Канишка Рао, водещият изследовател на проекта.

Според DeepMind моделът може да управлява различни роботи в стотици сценарии, които не са били изрично включени в обучението му.

„Когато роботът разбере общите концепции, той става значително по-гъвкав и полезен“, допълва Рао.

Как LLMs променят роботиката?

Големите езикови модели са изградени върху огромни количества данни, мощни алгоритми и изчислителни ресурси. Макар към момента да не е възможно роботите да бъдат обучавани в толкова мащабни среди, LLMs вече имат огромно познание за физическия свят, както и усъвършенствани комуникационни умения.

Разработчиците комбинират големите езикови модели с нови методи за обучение - чрез телематика и симулация, което позволява по-ефективно практикуване на физически действия. В резултат машините стават по-умни, по-прецизни в действията си и доста по-гъвкави в 3D измерението.

Google не е единствената компания, която смело тръгва в тази посока.

Бивши изследователи от компанията вече работят по собствени проекти - Physical Intelligence е нов стартъп, който се фокусира върху същите технологии, а Toyota Research Institute също инвестира в подобни разработки.

През септември 2024 г. DeepMind показа робот, който комбинира LLMs с напреднали методи за обучение, за да изпълнява сложни задачи като връзване на обувки и сгъване на дрехи по команда. А сега, с представянето на Gemini Robotics, Google прави още една крачка напред.

Компанията усилено наваксва след първоначалния шок от появата на ChatGPT през ноември 2022 г. и сега иска да изведе изкуствения интелект отвъд интерфейса на чатботовете - а именно в реалния, физически свят.

За тази цел компанията си партнира с Agility Robotics, Boston Dynamics и Enchanted Tools, които разработват различни видове роботи - от хуманоиди до автоматизирани помощници за индустрията и услугите.

OpenAI, която затвори роботизираното си звено през 2021 г., също е възобновила усилията си в тази посока през 2024 г., като вече набира специалисти по роботика.

Използването на съвременните AI модели за управление на роботи носи не само обещания, но и доста нови рискове.

През декември 2024 г. екип от Университета на Пенсилвания демонстрира как така наречените AI jailbreaks - техники за „разбиване“ на защитите на езиковите модели - могат да доведат до опасни последици, когато моделът управлява робот.

В експеримента те успяват да накарат робот на колела да „достави“ несъществуваща бомба чрез манипулация на инструкциите.

За да предотврати подобни инциденти и да смекчи страховете около „избягалите“ AI роботи, Google DeepMind обяви нов еталон за оценка на рисковете - ASIMOV, кръстен на Айзък Азимов, автор на знаковите закони за роботиката.

Еталонът ще бъде използван, за да се идентифицират опасни поведения при роботите в различни симулирани ситуации. Например, тестовете могат да разкрият дали един робот може да вземе предмет в момент, когато човек също посяга към него - сценарий, който може да доведе до нараняване.

„Изграждаме тази технология, като основният ни приоритет е безопасността“, подчерта Каролина Парада, ръководител на роботизираните проекти в DeepMind.

Тя обаче признава, че има още доста работа, преди роботите, оборудвани с Gemini Robotics, да бъдат наистина способни.

Едно от най-големите ограничения е, че те не се учат, докато изпълняват задачите, както правят хората.

Засега Google не разполага с конкретни планове за комерсиализиране на технологията.

Но едно е ясно - AI роботиката е на прага на нова ера, в която машините ще разбират не само думите, но и света около себе си.