Исследователь OpenAI Бенджамин Арнав заявляет, что нынешняя система оценки моделей искусственного интеллекта является ненадежной из-за отсутствия стандартизации. По его словам, показатели, которые широко используются в качестве доказательства прогресса, часто создаются в разных условиях и поэтому вводят в заблуждение. Это влияет на решения по безопасности, развертыванию моделей и оценке рисков.
"Мы принимаем решения по развертыванию и безопасности на основе данных, которые не означают того, что люди считают. Все другие отрасли с высокими рисками решили эту проблему таким образом: передали функцию измерения из рук компаний, подлежащих оценке, независимым аудиторам", — подчеркнул Арнав.
Проблема
Одним из показательных примеров является бенчмарк SWE-bench Verified, который используют для оценки способности моделей писать код. Как указывает Арнав, различные версии моделей тестировались не при одинаковых условиях — с разным количеством задач, инструментов и режимов рассуждения, что делает результаты несовместимыми.
В частности, компания Anthropic меняла параметры тестирования почти с каждым релизом — от Claude 3.7 до более новых версий. Похожие проблемы прослеживаются и в подходах OpenAI. Например, результаты модели o3-mini базировались только на части из большого массива задач, что делает невозможным прямое сравнение с другими системами.
Кроме того, компания не всегда раскрывала количество испытаний или детали оценивания. Google, в свою очередь, сначала публиковал ограниченную информацию о Gemini 2.5, но впоследствии добавил отдельные документы с методологией.
Расхождения касаются и других популярных тестов, в частности GPQA и AIME. Компании меняют количество испытаний, способы вычисления результатов или добавляют сторонние инструменты, что прямо влияет на итоговые показатели, но не всегда учитывается в публичных интерпретациях.
Арнав признает, что часть этих изменений обусловлена практическими обстоятельствами — в частности, ограничениями инфраструктуры или времени перед релизами моделей. Впрочем, он подчеркивает, что это не отменяет потребности в прозрачности.
Решение проблемы
В качестве возможного выхода он предлагает передать оценку моделей независимым аудиторам. При такой модели компании должны были бы предоставлять свои системы для стандартизированного тестирования сторонним организациям, которые публиковали бы результаты одновременно с релизами.
Подобная практика уже частично применяется для оценок безопасности в сотрудничестве с организациями Apollo и METR. В то же время большинство метрик, которые активно цитируются в публичном пространстве, остаются внутренними и не проходят независимой верификации.
Почему необходимо изменить оценивание?
В качестве аргумента в пользу изменений исследователь приводит примеры из других отраслей. В частности, он вспоминает автомобильные краш-тесты Euro NCAP и финансовые стандарты после Великой депрессии, которые ввели независимый аудит и унифицированные подходы к оценке.
По его мнению, дополнительным стимулом для внедрения таких практик может стать политика крупных заказчиков. В частности, государственные и корпоративные контракты могут требовать независимой оценки моделей как обязательного условия сотрудничества.
В то же время Арнав отмечает, что нынешняя система частично выгодна самим компаниям, ведь высокие показатели усиливают информационный эффект от релизов. Однако это равновесие может измениться, если хотя бы один игрок сделает ставку на полную прозрачность.
В краткосрочной перспективе он также допускает компромиссный вариант — согласование общих стандартов тестирования для открытых бенчмарков. Это позволит хотя бы частично уменьшить разрыв между заявленными результатами разных моделей.
Арнав заключает, что стандартизированные оценки являются критически важными для понимания реальных возможностей ИИ. Без них невозможно обеспечить надлежащий уровень доверия, безопасности и обоснованных решений по внедрению технологий.
Ранее администрация Дональда Трампа обсуждала возможность введения государственного надзора за моделями искусственного интеллекта — проверки систем до их публичного запуска. Изменение курса, вероятно, произойдет после появления мощных и потенциально опасных технологий, таких как Mythos от Anthropic.
