Компанията за изкуствен интелект OpenAI пуска на пазара модернизирана версия на своя водещ модел за генеративен AI – GPT-4 Turbo. Той обработва изображения, което означава, че потребителите могат да качват в него снимки и видеоклипове, пише Inc. Нещо повече – човек може например да качи снимка на шахматна дъска и да се поиска от AI да препоръча следващ ход.

Компаниите с ранен достъп до инструмента вече демонстрират как той може да се използва в задачи като кодиране или получаване на информация от визуални изображения. В поредица от туитове от официалния акаунт на OpenAI Developers, OpenAI цитира три компании, които използват GPT-4 Turbo with Vision.

Стартъпът за изкуствен интелект Cognition Labs наскоро представи Devin – чатбот с изкуствен интелект, който разработва код от подкани на естествен език. Например потребител иска от Devin да направи малка поправка на уеб страница. Инструментът за кодиране не само се справя, но и отваря интернет браузър, за да прегледа уебстраницата и да потвърди визуално промените.

Друг нов инструмент с възможност за визуализация, който е дело на стартъпа за отслабване и здравословно хранене HealthifyMe, е Healthify Snap. Той позволява на потребителите да качат снимка на храната си и да получат съвети и подробности за хранителните стойности от AI чатбота на компанията, наречен Ria. Един потребител е направил снимка на своята купа с пилешко и ориз и е получил отговор от Ria, че белият ориз повишава кръвната захар. Освен това чатботът го е насърчил да се разходи 15 минути и следващия път да опита кафяв ориз или киноа.

Последният пример е от технологичния стартъп Tldraw, който разработи Make Real. Инструмент позволява на потребителите да изготвят концепция за уебсайт и след това автоматично да я разработят и редактират. Един потребител е създал страница за обратна връзка за уебсайт. Потребителят просто е нарисувал текстово поле, предназначено за клиентски отзиви за хипотетичен продукт. За секунди скицата се превърнала в работеща уебстраница, снабдена със заглавие, интерактивно текстово поле и бутон „изпрати“.

Според доклад на The Information компанията майка на Facebook – Meta, скоро ще започне поетапно пускане на Llama 3 – новата версия на нейния водещ мащабен езиков модел с отворен код. Следващата седмица се очаква Meta да пусне две по-малки версии на Llama 3, предназначени за изпълнение на задачи, които не изискват високи нива на познание – като езикови преводи или генериране на имейли. Твърди се, че Meta ще започне да пуска моделите от следващо поколение „в рамките на идния месец“, а през лятото се очаква да пусне пълноразмерната версия на Llama 3, която ще има мултимодални възможности като GPT-4 Turbo with Vision.

OpenAI вече загатва какво се задава след GPT-4 Turbo with Vision, а именно GPT-5. В интервю за Financial Times главният оперативен директор на OpenAI Брад Лайткап казва, че бъдещите версии на модела ще имат подобрени възможности за разсъждаване, което ще им позволи да се справят с по-сложни задачи.