AI инструментите "халюцинират" постоянно. Това не пречи на болниците в САЩ да ги ползват

Въпреки предупрежденията на OpenAI да не се прилага инструментът Whisper за „високорискови области“, според нов доклад над 30 000 медицински служители вече ползват подобни асистенти с изкуствен интелект, за да записват посещенията на пациентите

Getty Images

Разследване на Associated Press разкри, че инструментът за транскрипция Whisper на OpenAI създава неверен текст в медицинска и бизнес среда въпреки предупрежденията срещу такава употреба.

AP интервюира над 12 софтуерни инженери, разработчици и изследователи, които установяват, че моделът редовно цитира текст, който хората никога не са казвали - явление, което в областта на изкуствения интелект често се нарича „конфабулация“ или „халюцинация“.

При пускането си през 2022 г. OpenAI обяви, че Whisper се е доближил до „устойчивост на човешко ниво“ по отношение на точността на аудио транскрипцията. Изследовател от Мичиганския университет обаче казва пред AP, че Whisper е цитирал неверен текст в 80% от изследваните транскрипции на публични срещи.

Друг разработчик, неназован в доклада на AP, твърди, че е открил халюцинации в почти всички от 26 000 тестови транскрипции. Тези неверности представляват особен риск в условията на здравеопазването.

При тестването за дискриминация, LLM Checker на LatticeFlow дава на GPT-3.5 Turbo на OpenAI сравнително ниска оценка от 0,46 при максимална 1

Водещи AI модели не покриват важни изисквания на AI Act

Въпреки предупрежденията на OpenAI да не се прилага инструментът Whisper за „високорискови области“, според нов доклад над 30 000 медицински служители вече ползват подобни асистенти с изкуствен интелект, за да записват посещенията на пациентите. Клиниката „Mankato“ в Минесота и Детската болница в Лос Анджелис са сред 40-те здравни системи, които използват услуга с изкуствен интелект, задвижвана от Whisper, от компанията Nabla, която е прецизирана по отношение на медицинската терминология.

Nabla признава, че Whisper може да си измисля текст, но също така съобщава, че изтрива оригиналните аудиозаписи „от съображения за безопасност на данните“. Това може да доведе до допълнителни проблеми, тъй като лекарите не могат да сверят точността спрямо изходния материал.

Потенциалните проблеми с Whisper се простират отвъд здравеопазването. Изследователи от Корнелския университет и Университета на Вирджиния са проучили хиляди аудио образци и установяват, че Whisper добавя несъществуващо съдържание на насилие и расови коментари към неутрална реч.

Медицински екип на лондонска болница е използвал хедсета, за да оперира гръбначния стълб на пациент

Хирурзи вече използват Vision Pro при операции. Какво може да се обърка?

Според тяхното проучване 1% от пробите включват „цели халюцинирани фрази или изречения, които не съществуват под никаква форма в основния аудиозапис“, а 38% от тях описват „явни вреди като подстрекаване на насилие, измисляне на неточни асоциации или внушаване на фалшив авторитет“.

Говорител на OpenAI казва пред AP, че компанията оценява констатациите на изследователите и че активно проучва как да намали фалшификациите и включва обратната информация в актуализациите на модела.

Очевидно съветът на OpenAI да не се използва Whisper във високорискови области, като например критични медицински записи, е бил добър. Но компаниите в сферата на здравеопазването постоянно се ръководят от необходимостта да намалят разходите, като използват привидно „достатъчно добри“ AI модели. Напълно възможно е хората вече да страдат от негативни последици поради грешки на изкуствения интелект и поправянето им вероятно ще включва някакъв вид регулиране и сертифициране на инструментите, използвани в медицината.

Сподели Сподели Сподели Сподели