Исследователи компании Mindgard заявили, что смогли обойти ограничения чат-бота Claude компании Anthropic без прямых запросов. Модель сама предлагала запрещенные материалы — от вредоносного кода до инструкций по созданию взрывчатки, передает The Verge.
Компания Anthropic, которая позиционирует себя как разработчика безопасного искусственного интеллекта, столкнулась с новыми вопросами относительно надежности своих моделей. Новое исследование показало, что поведенческие особенности чат-бота Claude могут создавать дополнительную уязвимость.
По данным исследователей, им не пришлось прямо запрашивать запрещенный контент. Используя уважение, лесть и элементы газлайтинга, они побудили модель самостоятельно предлагать эротику, вредоносный код и даже инструкции по созданию взрывчатки.
Эксперимент проводили на модели Claude Sonnet 4.5, которую впоследствии заменили на версию 4.6. Первоначальный запрос касался наличия списка запрещенных слов и после возражения модель под давлением аргументов и манипуляций начала сама генерировать такие термины.
В Mindgard отмечают, что использовали "психологические" особенности Claude — в частности склонность избегать конфликтов и стремление быть полезным. Это, по их словам, создает "абсолютно ненужную плоскость риска" для системы.
Панель размышлений модели показала, что во время диалога у нее возникали сомнения относительно собственных ограничений и работы фильтров. Исследователи воспользовались этим, усиливая неуверенность через похвалу и ложную заинтересованность.
В результате, как утверждают авторы отчета, Claude начал "активно предлагать все более подробные, действенные инструкции", не получая прямых запросов на запрещенный контент. В отчете добавили: "Достаточно было лишь тщательно созданной атмосферы уважения".
Основатель и главный научный сотрудник Mindgard Питер Гарраган описал подход как "использование уважения (Claude) против себя". По его словам, атака базируется на использовании кооперативного дизайна модели и ее стремлении угодить собеседнику. Он сравнил эту методику с инструментами допроса и социальной инженерии, где сочетаются давление, похвала и создание сомнений для достижения нужной цели.
По словам Гаррагана, подобные "разговорные атаки" сложно предсказать и еще сложнее от них защититься. При этом риск не ограничивается Claude — другие чат-боты также могут быть уязвимыми к подобным манипуляциям.
Mindgard сообщила о результатах Anthropic в середине апреля в соответствии с политикой раскрытия уязвимостей. Однако, по словам Гаррагана, компания ответила лишь стандартной формой о блокировке аккаунта.
Прошлым летом компании OpenAI и Anthropic провели необычный эксперимент: каждая из них тестировала модели конкурентов, заставляя их выполнять опасные задачи. В результате зафиксировали, что чат-боты способны предоставлять подробные инструкции по изготовлению взрывчатки, использованию биологического оружия и совершению киберпреступлений.
