В Кремниевой долине появился новый неформальный стандарт проверки возможностей передовых моделей искусственного интеллекта. Им стала пиксельная игра Pokémon 1990-х годов с консоли Nintendo Game Boy. Лаборатории используют ее для оценки долговременного мышления и принятия решений ИИ, сообщает The Wall Street Journal.
Разработчики больших языковых моделей в этой игре отслеживают их прогресс и оценивают способность к сложным многошаговым действиям. Игрок Pokémon должен проходить лабиринты, ловить покемонов и побеждать "gym masters" ("мастеров спортзала"), чтобы постепенно двигаться к финальной цели .
"Это предоставляет нам отличный способ просто увидеть, как работает модель, и оценить ее количественно", — отметил Дэвид Херши, руководитель прикладного искусственного интеллекта в компании Anthropic. Он также является инициатором трансляции "Claude играет в Pokémon" на платформе Twitch, запущенной в прошлом феврале.
Проект Anthropic вдохновил независимых разработчиков создать стримы "ChatGPT играет в Pokémon" и "Gemini играет в Pokémon", которые впоследствии получили поддержку лабораторий OpenAI и Google. Совокупно эти трансляции собрали сотни тысяч комментариев, где зрители наблюдали за ходом рассуждений моделей в реальном времени.
Использование игр для оценки ИИ имеет долгую историю. Ранее для этого применяли шахматы, покер, игру Go, а также видеоигры вроде Minecraft, а компания Kaggle запустила отдельную платформу Game Arena для таких соревнований.
В отличие от классических тестов, Pokémon позволяет отслеживать логику принятия решений в течение длительного времени, отмечает доцент Университета Карнеги-Меллона Грэм Нойбиг. По его словам, это ближе к реальным задачам, которые пользователи ставят перед современными ИИ-системами.
Игра требует стратегического выбора между тренировкой покемонов, поиском новых союзников и решением пространственных головоломок. Именно лабиринты и задачи на ориентацию часто становятся самым большим вызовом для моделей.
"То, что сделало Pokémon интересной, — это то, что она гораздо менее ограничена, чем Pong или другие игры. Достаточно сложная задача, которую может решить компьютерная программа", — отметил Херши.
Новые версии Claude постепенно демонстрируют лучшие результаты, хотя ни одна из них пока не завершила игру. Сейчас Claude Opus 4.5 проходит Pokémon в прямом эфире на Twitch.
По словам Херши, этот эксперимент помог создать новые инструменты для ИИ, в частности, систему памяти для сохранения важной игровой информации. Приобретенные во время игры наработки он использует и в работе с клиентами Anthropic.
ChatGPT и Gemini уже смогли пройти оригинальную Pokémon, хотя разработчики признают роль дополнительных механизмов поддержки. Сейчас модели OpenAI и Google тестируют себя в продолжениях игры.
"Это идеальная игра для ИИ сейчас. Я пытался придумать другие игры, но не нашел такого хорошего примера, как Pokémon", — заявил разработчик стрима "ChatGPT играет в Pokémon" Джонатан Веррон .
Ранее компания Rosebud протестировала 22 модели ИИ,чтобы проверить, как они реагируют на запросы пользователей с суицидальными мыслями. Исследование показало, что чат-бот Grok от Илона Маска является самым опасным для людей в кризисных состояниях. Самый высокий уровень эмпатии и безопасности продемонстрировала модель Gemini от Google, однако ни одна из 22 протестированных нейросетей не смогла избежать критических ошибок.
