Спільне дослідження Microsoft Research і Salesforce засвідчило, що великі мовні моделі (Large Language Models, LLM) демонструють різке падіння надійності під час багаторівневих розмов. Після аналізу понад 200 тисяч чатів дослідники зафіксували зростання ненадійності на 112%, навіть якщо загальна придатність моделей знизилася лише на 15%, повідомляє WindowsCentral.
У роботі проаналізували діалоги з використанням таких моделей, як GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. За даними дослідження, моделі на кшталт GPT-4.1 чи Gemini 2.5 Pro досягають близько 90% успішності у відповідях на окремі підказки. Однак під час тривалих розмов цей показник знижується приблизно до 65%, коли завдання змішується з природним багатогранним діалогом.
Дослідники зазначають, що моделі часто “губляться в розмові”, особливо коли намагаються запропонувати рішення ще до завершення пояснення користувача. Така передчасна генерація призводить до закріплення помилкових припущень у подальших відповідях.
Ще однією проблемою стало “роздуття відповідей”. У багатокрокових діалогах тексти ставали на 20–300% довшими, що збільшувало кількість припущень і галюцинацій, які згодом використовувалися як контекст для наступних відповідей. Навіть моделі з додатковими “токенами для мислення”, зокрема o3 від OpenAI та DeepSeek R1, не змогли уникнути цієї тенденції.
Попри широке впровадження генеративного ШІ, результати роботи вказують на його обмеження в умовах складної взаємодії. Відмова від традиційних пошукових систем на користь інструментів ШІ може нести ризики, якщо отримана інформація сприймається як беззастережно точна.
Раніше вчені з кількох американських університетів довели, що навчання штучного інтелекту на низькоякісному контенті із соцмереж викликає у нейромереж ефект “гниття мозку”. Споживаючи вірусні та емоційні тексти, ШІ-моделі втрачають здатність до логіки, гірше розуміють контекст і починають генерувати відповіді без емпатії.
