Цифри без довіри: дослідник OpenAI закликає переглянути оцінки ШІ

Дослідник OpenAI Бенджамін Арнав заявляє, що нинішня система оцінювання моделей штучного інтелекту є ненадійною через відсутність стандартизації. За його словами, показники, які широко використовуються як доказ прогресу, часто створюються за різних умов і тому вводять в оману. Це впливає на рішення щодо безпеки, розгортання моделей і оцінки ризиків.

“Ми ухвалюємо рішення щодо розгортання та безпеки на основі даних, які не означають того, що люди вважають. Усі інші галузі з високими ризиками розвʼязали цю проблему таким чином: передали функцію вимірювання з рук компаній, що підлягають оцінці, незалежним аудиторам”, — наголосив Арнав.

Проблема

Одним із показових прикладів є бенчмарк SWE-bench Verified, який використовують для оцінки здатності моделей писати код. Як вказує Арнав, різні версії моделей тестувалися не за однакових умов — із різною кількістю завдань, інструментів та режимів міркування, що робить результати несумісними.

ВАС ЗАЦІКАВИТЬ

Штучний інтелект допомагає розкривати анонімні акаунти в соцмережах

Зокрема, компанія Anthropic змінювала параметри тестування майже з кожним релізом — від Claude 3.7 до новіших версій. Схожі проблеми простежуються і в підходах OpenAI. Наприклад, результати моделі o3-mini базувалися лише на частині з великого масиву завдань, що унеможливлює пряме порівняння з іншими системами.

Крім того, компанія не завжди розкривала кількість випробувань або деталі оцінювання. Google, натомість, спочатку публікував обмежену інформацію щодо Gemini 2.5, але згодом додав окремі документи з методологією.

Розбіжності торкаються й інших популярних тестів, зокрема GPQA та AIME. Компанії змінюють кількість випробувань, способи обчислення результатів або додають сторонні інструменти, що прямо впливає на підсумкові показники, але не завжди враховується в публічних інтерпретаціях.

ВАС ЗАЦІКАВИТЬ

ШІ набуде свідомості вже за 15 років: вчені створили шкалу для вимірювання

Арнав визнає, що частина цих змін зумовлена практичними обставинами — зокрема, обмеженнями інфраструктури або часу перед релізами моделей. Втім, він підкреслює, що це не скасовує потреби у прозорості.

Розвʼязання проблеми

Як можливий вихід він пропонує передати оцінювання моделей незалежним аудиторам. За такої моделі компанії мали б надавати свої системи для стандартизованого тестування стороннім організаціям, які публікували б результати одночасно з релізами.

Подібна практика вже частково застосовується для оцінок безпеки у співпраці з організаціями Apollo та METR. Водночас більшість метрик, які активно цитуються у публічному просторі, залишаються внутрішніми і не проходять незалежної верифікації.

ВАС ЗАЦІКАВИТЬ

ШІ в секретних мережах США: сім техногігантів уклали угоди з Пентагоном

Чому необхідно змінити оцінювання?

Як аргумент на користь змін дослідник наводить приклади з інших галузей. Зокрема, він згадує автомобільні краш-тести Euro NCAP та фінансові стандарти після Великої депресії, які запровадили незалежний аудит і уніфіковані підходи до оцінювання.

На його думку, додатковим стимулом для впровадження таких практик може стати політика великих замовників. Зокрема, державні та корпоративні контракти можуть вимагати незалежної оцінки моделей як обов’язкової умови співпраці.

Водночас Арнав зауважує, що нинішня система частково вигідна самим компаніям, адже високі показники підсилюють інформаційний ефект від релізів. Проте ця рівновага може змінитися, якщо хоча б один гравець зробить ставку на повну прозорість.

ВАС ЗАЦІКАВИТЬ

ШІ-копії колишніх: новий тренд у Китаї викликав стурбованість фахівців

У короткостроковій перспективі він також допускає компромісний варіант — узгодження спільних стандартів тестування для відкритих бенчмарків. Це дозволить хоча б частково зменшити розрив між заявленими результатами різних моделей.

Арнав підсумовує, що стандартизовані оцінки є критично важливими для розуміння реальних можливостей ШІ. Без них неможливо забезпечити належний рівень довіри, безпеки та обґрунтованих рішень щодо впровадження технологій.

Раніше адміністрація Дональда Трампа обговорювала можливість запровадження державного нагляду за моделями штучного інтелекту — перевірки систем до їхнього публічного запуску. Зміна курсу, ймовірно, відбудеться після появи потужних та потенційно небезпечних технологій, таких як Mythos від Anthropic.

Будь ласка, виберіть один або кілька пунктів (до 3 шт.), які на Вашу думку визначає цей коментар.

Будь ласка, виберіть один або більше пунктів

Нецензурна лексика, лайка Флуд Порушення дійсного законодвства України Образа учасників дискусії Реклама Розпалювання ворожнечі Ознаки троллінгу й провокації Інша причина Відміна Надіслати скаргу ОК