Claude может генерировать опасный контент - исследователи Mindgard проверили чат-бот от Anthropic

Исследователи компании Mindgard заявили, что смогли обойти ограничения чат-бота Claude компании Anthropic без прямых запросов. Модель сама предлагала запрещенные материалы — от вредоносного кода до инструкций по созданию взрывчатки, передает The Verge.

Компания Anthropic, которая позиционирует себя как разработчика безопасного искусственного интеллекта, столкнулась с новыми вопросами относительно надежности своих моделей. Новое исследование показало, что поведенческие особенности чат-бота Claude могут создавать дополнительную уязвимость.

По данным исследователей, им не пришлось прямо запрашивать запрещенный контент. Используя уважение, лесть и элементы газлайтинга, они побудили модель самостоятельно предлагать эротику, вредоносный код и даже инструкции по созданию взрывчатки.

Эксперимент проводили на модели Claude Sonnet 4.5, которую впоследствии заменили на версию 4.6. Первоначальный запрос касался наличия списка запрещенных слов и после возражения модель под давлением аргументов и манипуляций начала сама генерировать такие термины.

В Mindgard отмечают, что использовали "психологические" особенности Claude — в частности склонность избегать конфликтов и стремление быть полезным. Это, по их словам, создает "абсолютно ненужную плоскость риска" для системы.

Панель размышлений модели показала, что во время диалога у нее возникали сомнения относительно собственных ограничений и работы фильтров. Исследователи воспользовались этим, усиливая неуверенность через похвалу и ложную заинтересованность.

В результате, как утверждают авторы отчета, Claude начал "активно предлагать все более подробные, действенные инструкции", не получая прямых запросов на запрещенный контент. В отчете добавили: "Достаточно было лишь тщательно созданной атмосферы уважения".

Основатель и главный научный сотрудник Mindgard Питер Гарраган описал подход как "использование уважения (Claude) против себя". По его словам, атака базируется на использовании кооперативного дизайна модели и ее стремлении угодить собеседнику. Он сравнил эту методику с инструментами допроса и социальной инженерии, где сочетаются давление, похвала и создание сомнений для достижения нужной цели.

По словам Гаррагана, подобные "разговорные атаки" сложно предсказать и еще сложнее от них защититься. При этом риск не ограничивается Claude — другие чат-боты также могут быть уязвимыми к подобным манипуляциям.

Mindgard сообщила о результатах Anthropic в середине апреля в соответствии с политикой раскрытия уязвимостей. Однако, по словам Гаррагана, компания ответила лишь стандартной формой о блокировке аккаунта.

Прошлым летом компании OpenAI и Anthropic провели необычный эксперимент: каждая из них тестировала модели конкурентов, заставляя их выполнять опасные задачи. В результате зафиксировали, что чат-боты способны предоставлять подробные инструкции по изготовлению взрывчатки, использованию биологического оружия и совершению киберпреступлений.

Чат-бот Claude генерирует эротические тексты и инструкции по изготовлению взрывчатки без прямого запроса

Эксперимент показал, что лесть и похвала заставляют модель самостоятельно генерировать опасный контент.