ChatGPT, Claude и Gemini играют в Pokémon: почему искусственный интеллект тренируют на играх

Поделиться
ChatGPT, Claude и Gemini играют в Pokémon: почему искусственный интеллект тренируют на играх © Getty Images
Трансляции на Twitch с сотнями зрителей показали прогресс моделей в сложных задачах.

В Кремниевой долине появился новый неформальный стандарт проверки возможностей передовых моделей искусственного интеллекта. Им стала пиксельная игра Pokémon 1990-х годов с консоли Nintendo Game Boy. Лаборатории используют ее для оценки долговременного мышления и принятия решений ИИ, сообщает The Wall Street Journal.

Разработчики больших языковых моделей в этой игре отслеживают их прогресс и оценивают способность к сложным многошаговым действиям. Игрок Pokémon должен проходить лабиринты, ловить покемонов и побеждать "gym masters" ("мастеров спортзала"), чтобы постепенно двигаться к финальной цели .

"Это предоставляет нам отличный способ просто увидеть, как работает модель, и оценить ее количественно", — отметил Дэвид Херши, руководитель прикладного искусственного интеллекта в компании Anthropic. Он также является инициатором трансляции "Claude играет в Pokémon" на платформе Twitch, запущенной в прошлом феврале.

Проект Anthropic вдохновил независимых разработчиков создать стримы "ChatGPT играет в Pokémon" и "Gemini играет в Pokémon", которые впоследствии получили поддержку лабораторий OpenAI и Google. Совокупно эти трансляции собрали сотни тысяч комментариев, где зрители наблюдали за ходом рассуждений моделей в реальном времени.

Использование игр для оценки ИИ имеет долгую историю. Ранее для этого применяли шахматы, покер, игру Go, а также видеоигры вроде Minecraft, а компания Kaggle запустила отдельную платформу Game Arena для таких соревнований.

В отличие от классических тестов, Pokémon позволяет отслеживать логику принятия решений в течение длительного времени, отмечает доцент Университета Карнеги-Меллона Грэм Нойбиг. По его словам, это ближе к реальным задачам, которые пользователи ставят перед современными ИИ-системами.

Игра требует стратегического выбора между тренировкой покемонов, поиском новых союзников и решением пространственных головоломок. Именно лабиринты и задачи на ориентацию часто становятся самым большим вызовом для моделей.

"То, что сделало Pokémon интересной, — это то, что она гораздо менее ограничена, чем Pong или другие игры. Достаточно сложная задача, которую может решить компьютерная программа", — отметил Херши.

Новые версии Claude постепенно демонстрируют лучшие результаты, хотя ни одна из них пока не завершила игру. Сейчас Claude Opus 4.5 проходит Pokémon в прямом эфире на Twitch.

По словам Херши, этот эксперимент помог создать новые инструменты для ИИ, в частности, систему памяти для сохранения важной игровой информации. Приобретенные во время игры наработки он использует и в работе с клиентами Anthropic.

ChatGPT и Gemini уже смогли пройти оригинальную Pokémon, хотя разработчики признают роль дополнительных механизмов поддержки. Сейчас модели OpenAI и Google тестируют себя в продолжениях игры.

"Это идеальная игра для ИИ сейчас. Я пытался придумать другие игры, но не нашел такого хорошего примера, как Pokémon", — заявил разработчик стрима "ChatGPT играет в Pokémon" Джонатан Веррон .

Ранее компания Rosebud протестировала 22 модели ИИ,чтобы проверить, как они реагируют на запросы пользователей с суицидальными мыслями. Исследование показало, что чат-бот Grok от Илона Маска является самым опасным для людей в кризисных состояниях. Самый высокий уровень эмпатии и безопасности продемонстрировала модель Gemini от Google, однако ни одна из 22 протестированных нейросетей не смогла избежать критических ошибок.

Поделиться
Заметили ошибку?

Пожалуйста, выделите ее мышкой и нажмите Ctrl+Enter или Отправить ошибку

Добавить комментарий
Всего комментариев: 0
Текст содержит недопустимые символы
Осталось символов: 2000
Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.
Пожалуйста выберите один или больше пунктов
Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК
Оставайтесь в курсе последних событий!
Подписывайтесь на наш канал в Telegram
Следить в Телеграмме