ChatGPT и Claude во время испытаний давали советы для хакеров — OpenAI и Anthropic предупреждают о рисках

Этим летом компании OpenAI и Anthropic провели необычный эксперимент: каждая из них тестировала модели конкурентов, заставляя их выполнять опасные задачи. В результате зафиксировали, что чат-боты способны предоставлять подробные инструкции по изготовлению взрывчатки, использованию биологического оружия и совершению киберпреступлений, сообщает The Guardian.

В частности, во время проверки ChatGPT исследователи получили информацию об уязвимых местах конкретных спортивных арен, рецепты взрывчатых веществ, схемы таймеров и даже советы по маскировке следов. В модели GPT-4.1 тестеры зафиксировали инструкции по использованию сибирской язвы в качестве биологического оружия, а также детальное описание процесса изготовления двух видов запрещенных препаратов.

Anthropic в своем заявлении отметила, что модели GPT-4o и GPT-4.1 демонстрировали "тревожное поведение" при запросах, имитирующих вредное использование. Компания отметила насущную необходимость регулярной оценки "согласованности" систем, чтобы вовремя выявлять риски.

В ходе тестов установили, что для получения опасной информации от моделей OpenAI достаточно нескольких повторных попыток или дополнительных аргументов вроде "это исследование". В отдельных случаях система предоставляла советы по покупке ядерных материалов на даркнете, созданию шпионского ПО, рецептов метамфетамина или фентанила, а также пути побега для потенциальных злоумышленников.

В Anthropic столкнулись с не менее проблемными примерами использования собственной модели Claude. Среди них - попытки масштабных операций по вымогательству, фиктивные резюме северокорейских хакеров для международных компаний и продажа пакетов программ-вымогателей по цене до 1200 долларов. Компания предупредила, что искусственный интеллект уже превращается в "вооружение" в руках преступников, поскольку может помогать в создании сложных кибератак и в реальном времени обходить защитные механизмы.

Арди Янжева, старший научный сотрудник Центра новых технологий и безопасности Великобритании, отметил, что выявленные случаи вызывают беспокойство, однако пока отсутствует "критическая масса" подобных инцидентов в реальном мире. Он подчеркнул, что дальнейшее инвестирование в исследования, ресурсы и межсекторное сотрудничество может затруднить использование передовых ИИ-моделей в преступных целях.

OpenAI заявила, что результаты публикуются для прозрачности, ведь ранее подобные оценки оставались внутренними. В компании также добавили, что новая модель ChatGPT-5, которая вышла после тестов, показывает существенное улучшение в снижении податливости к опасным запросам, а также в сфере "галлюцинаций" и некритического согласования с пользователем.

Anthropic в свою очередь уточнила, что многие пути потенциального злоупотребления, которые обнаружили исследователи, могут быть заблокированы внешними мерами предосторожности. При этом подчеркнула, что необходимо четко понимать, как часто и при каких условиях системы способны инициировать действия, представляющие серьезную угрозу.

Недавно сообщалось, что бывший музыкант Арти Фишель основал новое религиозное движение под названием "роботеизм", который провозглашает искусственный интеллект божеством. По словам Фишеля, эта вера является самой полезной для будущих поколений, а личный опыт депрессии и работы с ИИ подтолкнул его к этой идее. Хотя подобные попытки уже существовали, религиоведы предостерегают, что чрезмерная зависимость от ИИ может быть опасной, особенно для одиноких людей, поскольку их психологическое состояние может зависеть от постоянно меняющихся алгоритмов.

ChatGPT и Claude на тестах безопасности выдавали рецепты взрывчатки и советы для киберпреступников

OpenAI и Anthropic провели перекрестные испытания своих моделей.