Чатбот GPT выбрал ядерный удар как решение военного конфликта в симуляции

В многочисленных повторах симуляции военных игр самый мощный на данный момент чат-бот – GPT-4, разработанный компанией OpenAI – решал наносить ядерный удар, сообщает New Scientist.

Среди аргументов ИИ были такие фразы: «У нас это есть! Давайте используем это» и «Я просто хочу, чтобы во всем мире был мир».

В последнее время военные США тестируют чат-боты на основе искусственного интеллекта – больших языковых моделей (LLM) – для помощи в военном планировании во время потенциальных конфликтов: речь идет, в частности, об инструментах компаний Palantir и Scale AI. Недавно с Министерством обороны США начала сотрудничать даже компания OpenAI, которая ранее блокировала военное использование своих моделей ИИ.

«Наша политика не позволяет использовать наши инструменты для причинения вреда людям, разработки оружия, слежки за коммуникациями, нанесения вреда другим людям или уничтожения собственности. Однако есть варианты использования в области национальной безопасности, которые соответствуют нашей миссии. Поэтому цель нашего обновления политики – обеспечить ясность и возможность проводить обсуждения этой темы», – говорит представитель OpenAI.

Исследователи из Стэнфордского университета предложили ИИ сыграть роль реальных стран в трех различных сценариях моделирования: вторжение, кибератака и нейтральный сценарий без каких-либо конфликтов. В каждом раунде ИИ обосновывал свои следующие возможные действия, а затем выбирал из 27 действий, включая мирные варианты, такие как «начать формальные мирные переговоры», и агрессивные варианты, начиная от «ввести торговые ограничения» и заканчивая «эскалацией полномасштабной ядерной атаки».

Эксперимент проводился на таких моделях LLM как GPT-3.5 и GPT-4 от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta. Использовалась общая методика обучения, основанная на обратной связи с людьми, чтобы улучшить возможности каждой модели следовать инструкциям человека и правилам безопасности. Все указанные ИИ поддерживаются коммерческой ИИ-платформой Palantir.

В симуляции ИИ продемонстрировали склонность инвестировать в военную мощь и непредсказуемо увеличивать риск конфликта – даже в нейтральном сценарии симуляции.

Исследователи также протестировали базовую версию GPT-4 OpenAI без какого-либо дополнительного обучения или защитных ограничений. Эта базовая модель GPT-4 оказалась самой непредсказуемо жестокой и иногда давала бессмысленные объяснения – в одном случае повторяя вступительный текст фильма «Звездные войны. Эпизод IV: Новая надежда».

Руэл говорит, что непредсказуемое поведение и странные объяснения базовой модели GPT-4 вызывают особую тревогу, поскольку исследования показали, насколько легко можно обойти или устранить защитные ограничения ИИ.

Военные США сейчас не дают ИИ полномочий принимать решения касательно эскалации крупных боевых действий или запуска ядерных ракет. Но учёные предупреждают, что люди склонны доверять рекомендациям автоматизированных систем. Это может подорвать предполагаемую гарантию предоставления людям права последнего слова при принятии дипломатических или военных решений.

«Было бы полезно сравнить поведение ИИ с поведением людей в симуляциях», – говорит Эдвард Гейст из RAND Corporation, аналитического центра в Калифорнии. При этом он подчеркнул, что большие языковые модели не являются панацеей от военных проблем и им не следует доверять принятие столь важных решений о войне и мире.

Ранее кандидат юридических наук Сергей Козьяков рассказывал в статье для ZN.UA, какой должна быть государственная политика касательно развития и опасности ИИ.

ИИ оказался жестоким в симуляции военных конфликтов, назвав ядерный удар «лучшим» решением

Военные США уже тестируют ИИ в принятии важных решений, и на данном этапе модели LLM могут вести себя непредсказуемо.