ChatGPT, Claude и Gemini играют в Pokémon: почему искусственный интеллект тренируют на играх

В Кремниевой долине появился новый неформальный стандарт проверки возможностей передовых моделей искусственного интеллекта. Им стала пиксельная игра Pokémon 1990-х годов с консоли Nintendo Game Boy. Лаборатории используют ее для оценки долговременного мышления и принятия решений ИИ, сообщает The Wall Street Journal.

Разработчики больших языковых моделей в этой игре отслеживают их прогресс и оценивают способность к сложным многошаговым действиям. Игрок Pokémon должен проходить лабиринты, ловить покемонов и побеждать "gym masters" ("мастеров спортзала"), чтобы постепенно двигаться к финальной цели .

"Это предоставляет нам отличный способ просто увидеть, как работает модель, и оценить ее количественно", — отметил Дэвид Херши, руководитель прикладного искусственного интеллекта в компании Anthropic. Он также является инициатором трансляции "Claude играет в Pokémon" на платформе Twitch, запущенной в прошлом феврале.

ВАС ЗАИНТЕРЕСУЕТ

Китай готовит жесткие правила для "человечного" искусственного интеллекта

Проект Anthropic вдохновил независимых разработчиков создать стримы "ChatGPT играет в Pokémon" и "Gemini играет в Pokémon", которые впоследствии получили поддержку лабораторий OpenAI и Google. Совокупно эти трансляции собрали сотни тысяч комментариев, где зрители наблюдали за ходом рассуждений моделей в реальном времени.

Использование игр для оценки ИИ имеет долгую историю. Ранее для этого применяли шахматы, покер, игру Go, а также видеоигры вроде Minecraft, а компания Kaggle запустила отдельную платформу Game Arena для таких соревнований.

В отличие от классических тестов, Pokémon позволяет отслеживать логику принятия решений в течение длительного времени, отмечает доцент Университета Карнеги-Меллона Грэм Нойбиг. По его словам, это ближе к реальным задачам, которые пользователи ставят перед современными ИИ-системами.

ВАС ЗАИНТЕРЕСУЕТ

ИИ пока не заберет работу: отчет Anthropic обнаружил, что Claude чаще помогает, чем заменяет

Игра требует стратегического выбора между тренировкой покемонов, поиском новых союзников и решением пространственных головоломок. Именно лабиринты и задачи на ориентацию часто становятся самым большим вызовом для моделей.

"То, что сделало Pokémon интересной, — это то, что она гораздо менее ограничена, чем Pong или другие игры. Достаточно сложная задача, которую может решить компьютерная программа", — отметил Херши.

Новые версии Claude постепенно демонстрируют лучшие результаты, хотя ни одна из них пока не завершила игру. Сейчас Claude Opus 4.5 проходит Pokémon в прямом эфире на Twitch.

ВАС ЗАИНТЕРЕСУЕТ

Приближение к "суперинтеллекту": виртуальные миры открывают новый этап развития ИИ

По словам Херши, этот эксперимент помог создать новые инструменты для ИИ, в частности, систему памяти для сохранения важной игровой информации. Приобретенные во время игры наработки он использует и в работе с клиентами Anthropic.

ChatGPT и Gemini уже смогли пройти оригинальную Pokémon, хотя разработчики признают роль дополнительных механизмов поддержки. Сейчас модели OpenAI и Google тестируют себя в продолжениях игры.

"Это идеальная игра для ИИ сейчас. Я пытался придумать другие игры, но не нашел такого хорошего примера, как Pokémon", — заявил разработчик стрима "ChatGPT играет в Pokémon" Джонатан Веррон .

Ранее компания Rosebud протестировала 22 модели ИИ,чтобы проверить, как они реагируют на запросы пользователей с суицидальными мыслями. Исследование показало, что чат-бот Grok от Илона Маска является самым опасным для людей в кризисных состояниях. Самый высокий уровень эмпатии и безопасности продемонстрировала модель Gemini от Google, однако ни одна из 22 протестированных нейросетей не смогла избежать критических ошибок.

Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.

Пожалуйста выберите один или больше пунктов

Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК