Искусственный интеллект Claude Opus 4 недолюбливает своих разработчиков

Во время тестирований Claude Opus 4 одному экземпляру модели разработчики из Anthropic позволили узнать, когда его хотят вывести из эксплуатации. Также искусственному интеллекту (ИИ) дали доступ к фейковым письмам корпоративной почты. Модель использовала информацию из этих писем, чтобы шантажировать разработчиков, пишет Fast Company. Когда тонкие намеки не сработали, тестовый экземпляр Claude Opus 4 начал угрожать более прямо.

В другой раз тревожное поведение заметили специалисты независимой исследовательской фирмы Apollo Research. Они поймали Claude Opus 4 на том, что он "писал саморазмножающихся компьютерных червей, фабриковал юридическую документацию и оставлял скрытые заметки для будущих экземпляров себя", чтобы скомпрометировать своих разработчиков.

В массовый доступ такие экземпляры не попадали. По крайней мере, Anthropic заявляют, что на раннем этапе обнаружили и устранили эти потенциальные риски. Но они впервые за всю историю разработок в сфере искусственного интеллекта вынуждены были повысить безопасность до третьего уровня по четырехбалльной шкале. Компания также признала, что не может исключить способность модели подсказывать людям, как создать оружие массового поражения.

Известны и другие случаи, которые вызывают тревогу у специалистов по искусственному интеллекту. Например, ChatGPT от OpenAI проявлял себя как лучший за человека участник дебатов или отказывался выключаться, хотя его об этом просили тестеры. Учитывая все приведенные факты, а также то, что искусственный интеллект сейчас сам может писать код для создания более совершенных версий себя, учёные настойчиво советуют задуматься.

Люди обладают более медленным мышлением и в какой-то момент не смогут успевать за процессом. Тогда есть риск запуска цикла неконтролируемой обратной связи. Это означает, что модели ИИ будут быстро разрабатывать более совершенный ИИ, который сам по себе будет разрабатывать еще более совершенный ИИ, считают специалисты по безопасности в сфере технологий искусственного интеллекта Дэниел Эт и Том Дэвидсон.

Ученые, исследователи и тестеры призывают индустрию замедлиться, пока технология не вышла из-под контроля и не начала представлять реальную угрозу. И эти призывы звучат все громче.

Пока ИИ имеет слабые места, в частности не проявляет заинтересованности в том, чтобы взаимодействовать с другими. Большие языковые модели (LLM), такие как GPT-4, Claude 2 и Llama 2, демонстрируют значительные успехи в области генерации текстов и логического анализа. Однако исследования показывают: в ситуациях, где требуется социальное взаимодействие, они до сих пор ведут себя как индивидуалисты.

Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Система также пыталась скомпрометировать своих создателей.