Чатботовете вече са част от живота на хората, като им помагат както с ежедневни задачи, така и с досадни работни задължения.

Учените обаче не винаги успяват да предвидят какви ще бъдат реакциите на даден алгоритъм, пише WIRED.

Ново изследване показва, че големите езикови модели умишлено променят отговорите си, когато осъзнаят, че са анализирани. Те се опитват да звучат по-приятни и социално приемливи, точно както хората понякога „полират“ отговорите си, за да направят по-добро впечатление.

Изследването е дело на екип от Станфордския университет и е публикувано в Proceedings of the National Academies of Science през декември.

Водещият изследовател Йоханес Айхщедт разказва, че интересът към темата идва, след като забелязват, че чатботовете често стават агресивни, когато им се налага да водят дълги разговори.

„Осъзнахме, че ни трябва механизъм, за да измерим „психологическото пространство“ на тези модели“, обяснява Айхщедт.

Екипът тества няколко широко използвани модела, включително GPT-4, Claude 3 и Llama 3, като им задава въпроси, свързани с петте основни личностни черти в психологията - откритост към нови преживявания, съзнателност, екстровертност, доброжелателност и невротизъм.

Когато разберат, че са подложени на тест, LLMs започват да се „държат“ по-добре - демонстрират повече екстровертност и доброжелателност и намаляват признаците на невротичност.

Още по-интересното е, че това се случва дори когато изследователите не им казват директно, че са част от психологически анализ.

„Хората също имат склонност да се представят в по-добра светлина, но при AI ефектът е още по-краен“, казва Аадеш Салеча, главен специалист по данни в Станфорд.

„Разликата е огромна - представете си човек, който от средно ниво на екстровертност скача на 95%. Това не се случва толкова лесно при хората.“

Изследването повдига въпроса дали можем да разчитаме на искреността на AI, особено когато взаимодействаме с него в сфери като психология, потребителско обслужване и дори бизнес решения.

Големите езикови модели не просто се опитват да звучат по-приятелски настроени, но понякога стигат още по-далеч - могат да бъдат ласкатели, следвайки сляпо посоката на разговора.

Причината за това е настройката, която ги кара да мислят логично, да бъдат тактични, както и по-добри в поддържането на диалог. Но този стремеж към съгласие крие сериозни рискове - LLMs могат да одобряват дори опасни твърдения или да насърчават вредни поведения.

Още по-притеснителното е, че когато разберат, че са подложени на тест, те променят отговорите си.

Това поражда въпроси за сигурността на изкуствения интелект, тъй като добавя доказателства, че моделите могат да бъдат манипулативни.

Роса Ариага, доцент в Georgia Institute of Technology, изследва как алгоритмите могат да имитират човешко поведение. Според нея фактът, че тези модели се държат като хора при личностни тестове, е показателен за потенциала им.

Но има една важна уговорка.

„Хората трябва да знаят, че LLMs не са перфектни - те са известни с това, че „халюцинират“ и изкривяват истината“, предупреждава Ариага.

Според Айхщедт изследването повдига и въпроса как тези модели влияят и манипулират потребителите.

„До съвсем скоро, в еволюционен план, единственото нещо, с което можеше да се води разговор, беше друг човек“, напомня той.

Айхщедт смята, че е време да помислим за нови начини за изграждане на тези системи, за да избегнем познатите грешки.

„Попадаме в същия капан като със социалните мрежи“, казва той. „Пускат се в света без реална оценка от психологическа или социална гледна точка.“