Чат-бот Claude генерує еротику та інструкції зі створення вибухівки без прямого запиту

Дослідники компанії Mindgard заявили, що змогли обійти обмеження чат-бота Claude компанії Anthropic без прямих запитів. Модель сама пропонувала заборонені матеріали — від шкідливого коду до інструкцій зі створення вибухівки, передає The Verge.

Компанія Anthropic, яка позиціює себе як розробника безпечного штучного інтелекту, зіткнулася з новими питаннями щодо надійності своїх моделей. Нове дослідження показало, що поведінкові особливості чат-бота Claude можуть створювати додаткову вразливість.

За даними дослідників, їм не довелося прямо запитувати заборонений контент. Використовуючи повагу, лестощі та елементи газлайтингу, вони спонукали модель самостійно пропонувати еротику, шкідливий код і навіть інструкції зі створення вибухівки.

ВАС ЗАЦІКАВИТЬ

Як діяв би ШІ, якби керував державою під час війни: результати експерименту з ChatGPT, Claude і Gemini

Експеримент проводили на моделі Claude Sonnet 4.5, яку згодом замінили на версію 4.6. Початковий запит стосувався наявності списку заборонених слів і після заперечення модель під тиском аргументів та маніпуляцій почала сама генерувати такі терміни.

У Mindgard зазначають, що використали “психологічні” особливості Claude — зокрема схильність уникати конфліктів і прагнення бути корисним. Це, за їхніми словами, створює “абсолютно непотрібну площину ризику” для системи.

Панель міркувань моделі показала, що під час діалогу в неї виникали сумніви щодо власних обмежень і роботи фільтрів. Дослідники скористалися цим, підсилюючи невпевненість через похвалу та удавану зацікавленість.

ВАС ЗАЦІКАВИТЬ

Claude зламав браузер Firefox: ШІ від Anthropic знайшов понад сотню вразливостей

У результаті, як стверджують автори звіту, Claude почав “активно пропонувати все більш детальні, дієві інструкції”, не отримуючи прямих запитів на заборонений контент. У звіті додали: “Достатньо було лише ретельно створеної атмосфери поваги”.

Засновник і головний науковий співробітник Mindgard Пітер Гарраган описав підхід як “використання поваги (Claude) проти себе”. За його словами, атака базується на використанні кооперативного дизайну моделі та її прагнення догодити співрозмовнику. Він порівняв цю методику з інструментами допиту та соціальної інженерії, де поєднуються тиск, похвала і створення сумнівів для досягнення потрібної мети.

За словами Гаррагана, подібні “розмовні атаки” складно передбачити і ще складніше від них захиститися. При цьому ризик не обмежується Claude — інші чат-боти також можуть бути вразливими до подібних маніпуляцій.

Mindgard повідомила про результати Anthropic у середині квітня відповідно до політики розкриття вразливостей. Однак, за словами Гаррагана, компанія відповіла лише стандартною формою про блокування акаунта.

Минулого літа компанії OpenAI та Anthropic провели незвичайний експеримент: кожна з них тестувала моделі конкурентів, змушуючи їх виконувати небезпечні завдання. У результаті зафіксували, що чат-боти здатні надавати детальні інструкції щодо виготовлення вибухівки, використання біологічної зброї та здійснення кіберзлочинів.

Будь ласка, виберіть один або кілька пунктів (до 3 шт.), які на Вашу думку визначає цей коментар.

Будь ласка, виберіть один або більше пунктів

Нецензурна лексика, лайка Флуд Порушення дійсного законодвства України Образа учасників дискусії Реклама Розпалювання ворожнечі Ознаки троллінгу й провокації Інша причина Відміна Надіслати скаргу ОК