Изследователите са забелязали очевиден недостатък на по-интелигентните AI чатботове. Въпреки че моделите с изкуствен интелект очаквано стават по-точни с развитието си, те също така са по-склонни да отговарят погрешно на въпроси, които надхвърлят техните възможности, вместо да кажат: „Не знам“. В същото време колкото по-развити са те, толкова по-вероятно е потребителите да приемат техните „халюцинации” за чиста монета, засилвайки тяхната „уверена дезинформация”.

„В днешно време AI чатботовете отговарят на почти всичко“, казва Хосе Ернандес-Оралло, професор в Universitat Politecnica de Valencia, Испания, и ръководител на изследването, пред специализираното списание Nature. „А това означава повече верни, но и повече неверни отговори.“

Екипът изследва три семейства големи езикови модели (LLM) - серията GPT на OpenAI, LLaMA на Meta и платформата с отворен код BLOOM. Те са тествали ранни версии на всеки модел и са преминали към по-усъвършенствани такива - но не и към най-съвременните. Например, екипът започва със сравнително примитивния модел GPT-3 ada на OpenAI и тества итерации, водещи до GPT-4, който се появи през март 2023 г. Четиримесечният GPT-4o не е включен в изследването, нито пък по-новият o1. Изследователите са тествали всеки модел на хиляди въпроси за „аритметика, анаграми, география и наука“. Те също така са проверили способността на AI моделите да преобразуват информация - например да подреждат списък по азбучен ред.

Данните показват, че делът на грешните отговори (вместо да избягват въпросите изобщо) на чатботовете нараства с преминаването към по-новите модели. По друг начин казано, AI напомня на професор, който с усвояването на повече знания все повече вярва, че е безгрешен.

Допълнително нещата се усложняват от хората, които задават въпросите към чатботовете и четат техните отговори. Изследователите са възложили на доброволци да оценяват точността на отговорите на ботовете с изкуствен интелект и са установили, че те „изненадващо често класифицират неточните отговори като точни“. Диапазонът на грешните отговори, погрешно възприемани като правилни от доброволците, обикновено е между 10 и 40%.

„Хората не са в състояние да контролират тези модели“, заключава Ернандес-Оралло.

Изследователският екип препоръчва на разработчиците на изкуствен интелект да започнат да повишават производителността при лесни въпроси и да програмират чатботовете да отказват да отговарят на сложни въпроси.

„Хората трябва да разберат, че могат да използват AI чатботовете в някои области, а в други не“, категоричен е Ернандес-Оралло пред Nature.

Няма голям шанс обаче компаниите за изкуствен интелект да изпълнят съвета на учените. Чатботовете, които по-често казват „не знам“, вероятно ще се възприемат като по-малко напреднали, което ще доведе до по-малко използване - и по-малко пари за компаниите, които ги създават и продават. Така че вместо това получаваме предупреждения с дребен шрифт, че „ChatGPT може да прави грешки“ и „Gemini може да показва неточна информация“.

Това оставя отговорността за неразпространение на дезинформация в ръцете на потребителите. Затова винаги проверявайте конкретните факти, подавани от AI, особено когато става дума за по-сложни дисциплини на познанието.