Чим довший діалог, тим більше галюцинацій: чат-боти “тупіють” після спілкування з людьми

Спільне дослідження Microsoft Research і Salesforce засвідчило, що великі мовні моделі (Large Language Models, LLM) демонструють різке падіння надійності під час багаторівневих розмов. Після аналізу понад 200 тисяч чатів дослідники зафіксували зростання ненадійності на 112%, навіть якщо загальна придатність моделей знизилася лише на 15%, повідомляє WindowsCentral.

У роботі проаналізували діалоги з використанням таких моделей, як GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. За даними дослідження, моделі на кшталт GPT-4.1 чи Gemini 2.5 Pro досягають близько 90% успішності у відповідях на окремі підказки. Однак під час тривалих розмов цей показник знижується приблизно до 65%, коли завдання змішується з природним багатогранним діалогом.

Дослідники зазначають, що моделі часто “губляться в розмові”, особливо коли намагаються запропонувати рішення ще до завершення пояснення користувача. Така передчасна генерація призводить до закріплення помилкових припущень у подальших відповідях.

ВАС ЗАЦІКАВИТЬ

Reddit для штучного інтелекту: як працює соцмережа, де люди лише спостерігають

Ще однією проблемою стало “роздуття відповідей”. У багатокрокових діалогах тексти ставали на 20–300% довшими, що збільшувало кількість припущень і галюцинацій, які згодом використовувалися як контекст для наступних відповідей. Навіть моделі з додатковими “токенами для мислення”, зокрема o3 від OpenAI та DeepSeek R1, не змогли уникнути цієї тенденції.

Попри широке впровадження генеративного ШІ, результати роботи вказують на його обмеження в умовах складної взаємодії. Відмова від традиційних пошукових систем на користь інструментів ШІ може нести ризики, якщо отримана інформація сприймається як беззастережно точна.

Раніше вчені з кількох американських університетів довели, що навчання штучного інтелекту на низькоякісному контенті із соцмереж викликає у нейромереж ефект “гниття мозку”. Споживаючи вірусні та емоційні тексти, ШІ-моделі втрачають здатність до логіки, гірше розуміють контекст і починають генерувати відповіді без емпатії.

Будь ласка, виберіть один або кілька пунктів (до 3 шт.), які на Вашу думку визначає цей коментар.

Будь ласка, виберіть один або більше пунктів

Нецензурна лексика, лайка Флуд Порушення дійсного законодвства України Образа учасників дискусії Реклама Розпалювання ворожнечі Ознаки троллінгу й провокації Інша причина Відміна Надіслати скаргу ОК