AI може да промени начина, по който слепите хора „виждат“ света
38 годишната Чела Робълс трудно може да разбере кога баща ѝ се шегува, и кога е сериозен. И в двата случая той говори с един тон и понеже тя не вижда, няма как да разчете дали се шегува по изражението на лицето му.
Слепотата, казва тя за Wired, ви лишава от малки детайли, които помагат на хората да се свържат помежду си. “Ако една картина може да каже 1000 думи, представете си колко думи може да каже едно изражение на лицето“, добавя Чела, която губи зрението си преди 10 години.
Преди три месеца тя се записва за пробен период за Ask Envision, AI асистент, използващ технологията на GPT-4 на OpenAI, който може да приема изображения и текст и да генерира гласови отговори. Системата е един от няколкото помощни продукта за хората с увредено зрение, обещаваща да даде на потребителите много повече визуални подробности за света около тях и много повече независимост.
Envision стартира като приложение за смартфон за оптично разпознаване на символи (OCR) през 2018 г., а в началото на 2021 г. продуктът е интегриран в Google Glass.
По-рано тази година компанията започна да тества разговорен модел с отворен код, който може да отговори на основни въпроси. Тогава Envision включва GPT-4 на OpenAI за описания от изображение към текст.
Be My Eyes, 12-годишно приложение, което помага на потребителите да идентифицират обекти около тях, интегрира GPT-4 през март. Microsoft – който е основен инвеститор в OpenAI – започна тестове за интегриране на GPT-4 за своята услуга SeeingAI, която предлага подобни функции, според отговорния ръководител на Microsoft AI Сара Бърд.
В най-новата си версия Ask Envision вече може например да чете меню и да отговаря на въпроси, свързани с цени, диетични показатели и опции за десерти, посочва Wired.
Ричард Биърдсли, който също е тествал Ask Envision по-рано, казва, че е използвал услугата, за да получи информация за съставките, написани върху опаковка на храна например. Наличието на хендсфри опция чрез Google Glass означава, че той може да използва приложението, докато държи каишката на своето куче водач и бастуна си.
Интегрирането на AI в продуктите за незрящи може да има дълбоко въздействие върху потребителите, казва Сина Бахрам, също незрящ. Той се занимава с компютърни науки и ръководи консултантска компания, която съветва музеи, тематични паркове и технологични компании като Google и Microsoft относно достъпността и включването на хора с увредено зрение.
Бахрам използва Be My Eyes с GPT-4 и казва, че големият езиков модел подобрява технологиите за хора като него, защото продуктите могат да се използват без усилие и не изискват технически умения. Преди две седмици, разказва той, по време на разходка по улица в Ню Йорк бизнес партньорът му спрял, за да разгледа нещо по-отблизо. Бахрам използвал Be My Eyes с GPT-4, за да научи, че това е колекция от стикери, някои карикатури, плюс малко текст и графити.
Това ниво на информация е „нещо, което не съществуваше преди година извън лабораторията“, казва той. „Просто не беше възможно.“
Дана Гурари, асистент професор по компютърни науки в Университета на Колорадо в Боулдър, организира годишния семинар Viz Wiz, за да събира на едно място компании като Envision с изследователи на AI и незрящи потребители на технологии. Когато Viz Wiz стартира през 2018 г., само четири екипа участват в семинара. Тази година са се записали над 50.
Целта на Гурари е AI инструментите да бъдат коректно внедрени в продуктите за незрящи и да е ясно, че те все още не са съвършени.
При ранно тестване на някои модели за преобразуване на изображение в текст Гурари установява, че AI инструментите могат да си измислят информация или да „халюцинират“. „Повечето от това, на което можете да се доверите, са само обектите от високо ниво, като „Виждам кола, виждам човек, виждам дърво“, казва тя. Според нея потребителят трудно може да се довери на по-сложен тип искана информация, например какво има в сандвича му.
„Наистина е фантастично незрящи хора да получават полезна информация. Проблемът е, когато вземат решения въз основа на фалшива информация, която може да остави лош вкус в устата им“, казва тя.
Може да има и животозастрашаващи последици, ако изкуствен интелект идентифицира дадено лекарство погрешно.
Използването на обещаващи, но не и усъвършенствани големи езикови модели, които да помогнат на слепите хора да „виждат“ света, също така може да ги изложи на негативната тенденция AI да идентифицира погрешно възрастта, расата и пола на хората. Известно е, че наборите от данни, използвани за обучение на AI, са изкривени и пристрастни, закодирали предразсъдъци и грешки.
Бахрам признава, че това са рискове и предлага системите да предоставят на потребителите оценка на доверието, така че те да могат да вземат по-информирани решения относно това, което AI смята, че вижда.
Технологиите не могат да дадат на слепите основните умения за придвижване, от които се нуждаят, за да бъдат независими, но хората, тествали Ask Envision, са впечатлени от досегашните функции на системата. Има ограничения, разбира се. Чела Робълс, която свири на тромпет, би искала инструментът да може да чете музика, както и да предоставя повече пространствен контекст - къде е човек или обект в стаята, както и повече детайли.
„Би било наистина страхотно да знам с какво е облечен даден човек например. Всеки малък детайл помага да получиш по-добро описание за света около себе си.“