AI инструментите "халюцинират" постоянно. Това не пречи на болниците в САЩ да го ползват
Въпреки предупрежденията на OpenAI да не се прилага инструментът Whisper за „високорискови области“, според нов доклад над 30 000 медицински служители вече ползват подобни асистенти с изкуствен интелект, за да записват посещенията на пациентите
Разследване на Associated Press разкри, че инструментът за транскрипция Whisper на OpenAI създава неверен текст в медицинска и бизнес среда въпреки предупрежденията срещу такава употреба.
AP интервюира над 12 софтуерни инженери, разработчици и изследователи, които установяват, че моделът редовно цитира текст, който хората никога не са казвали - явление, което в областта на изкуствения интелект често се нарича „конфабулация“ или „халюцинация“.
При пускането си през 2022 г. OpenAI обяви, че Whisper се е доближил до „устойчивост на човешко ниво“ по отношение на точността на аудио транскрипцията. Изследовател от Мичиганския университет обаче казва пред AP, че Whisper е цитирал неверен текст в 80% от изследваните транскрипции на публични срещи.
Друг разработчик, неназован в доклада на AP, твърди, че е открил халюцинации в почти всички от 26 000 тестови транскрипции. Тези неверности представляват особен риск в условията на здравеопазването.
Въпреки предупрежденията на OpenAI да не се прилага инструментът Whisper за „високорискови области“, според нов доклад над 30 000 медицински служители вече ползват подобни асистенти с изкуствен интелект, за да записват посещенията на пациентите. Клиниката „Mankato“ в Минесота и Детската болница в Лос Анджелис са сред 40-те здравни системи, които използват услуга с изкуствен интелект, задвижвана от Whisper, от компанията Nabla, която е прецизирана по отношение на медицинската терминология.
Nabla признава, че Whisper може да си измисля текст, но също така съобщава, че изтрива оригиналните аудиозаписи „от съображения за безопасност на данните“. Това може да доведе до допълнителни проблеми, тъй като лекарите не могат да сверят точността спрямо изходния материал.
Потенциалните проблеми с Whisper се простират отвъд здравеопазването. Изследователи от Корнелския университет и Университета на Вирджиния са проучили хиляди аудио образци и установяват, че Whisper добавя несъществуващо съдържание на насилие и расови коментари към неутрална реч.
Според тяхното проучване 1% от пробите включват „цели халюцинирани фрази или изречения, които не съществуват под никаква форма в основния аудиозапис“, а 38% от тях описват „явни вреди като подстрекаване на насилие, измисляне на неточни асоциации или внушаване на фалшив авторитет“.
Говорител на OpenAI казва пред AP, че компанията оценява констатациите на изследователите и че активно проучва как да намали фалшификациите и включва обратната информация в актуализациите на модела.
Очевидно съветът на OpenAI да не се използва Whisper във високорискови области, като например критични медицински записи, е бил добър. Но компаниите в сферата на здравеопазването постоянно се ръководят от необходимостта да намалят разходите, като използват привидно „достатъчно добри“ AI модели. Напълно възможно е хората вече да страдат от негативни последици поради грешки на изкуствения интелект и поправянето им вероятно ще включва някакъв вид регулиране и сертифициране на инструментите, използвани в медицината.