Чем длиннее диалог, тем больше галлюцинаций: чат-боты "тупеют" после общения с людьми

Поделиться
После 200 тысяч чатов показатели ошибок возрастают более чем вдвое.

Совместное исследование Microsoft Research и Salesforce показало, что большие языковые модели (Large Language Models, LLM) демонстрируют резкое падение надежности во время многоуровневых разговоров. После анализа более 200 тысяч чатов исследователи зафиксировали рост ненадежности на 112%, даже если общая пригодность моделей снизилась лишь на 15%, сообщает WindowsCentral.

В работе проанализировали диалоги с использованием таких моделей, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. По данным исследования, модели вроде GPT-4.1 или Gemini 2.5 Pro достигают около 90% успешности в ответах на отдельные подсказки. Однако во время длительных разговоров этот показатель снижается примерно до 65%, когда задача смешивается с естественным многогранным диалогом.

Исследователи отмечают, что модели часто "теряются в разговоре", особенно когда пытаются предложить решение еще до завершения объяснения пользователя. Такая преждевременная генерация приводит к закреплению ошибочных предположений в последующих ответах.

Еще одной проблемой стало "раздутие ответов". В многошаговых диалогах тексты становились на 20-300% длиннее, что увеличивало количество предположений и галлюцинаций, которые впоследствии использовались как контекст для последующих ответов. Даже модели с дополнительными "токенами для мышления", в частности o3 от OpenAI и DeepSeek R1, не смогли избежать этой тенденции.

Несмотря на широкое внедрение генеративного ИИ, результаты работы указывают на его ограничения в условиях сложного взаимодействия. Отказ от традиционных поисковых систем в пользу инструментов ИИ может нести риски, если полученная информация воспринимается как безоговорочно точная.

Ранее ученые из нескольких американских университетов доказали, что обучение искусственного интеллекта на низкокачественном контенте из соцсетей вызывает у нейросетей эффект "гниения мозга". Потребляя вирусные и эмоциональные тексты, ИИ-модели теряют способность к логике, хуже понимают контекст и начинают генерировать ответы без эмпатии.

Поделиться
Заметили ошибку?

Пожалуйста, выделите ее мышкой и нажмите Ctrl+Enter или Отправить ошибку

Добавить комментарий
Всего комментариев: 0
Текст содержит недопустимые символы
Осталось символов: 2000
Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.
Пожалуйста выберите один или больше пунктов
Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК
Оставайтесь в курсе последних событий!
Подписывайтесь на наш канал в Telegram
Следить в Телеграмме