Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Поделиться
Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков © Getty Images
Система также пыталась скомпрометировать своих создателей.

Во время тестирований Claude Opus 4 одному экземпляру модели разработчики из Anthropic позволили узнать, когда его хотят вывести из эксплуатации. Также искусственному интеллекту (ИИ) дали доступ к фейковым письмам корпоративной почты. Модель использовала информацию из этих писем, чтобы шантажировать разработчиков, пишет Fast Company. Когда тонкие намеки не сработали, тестовый экземпляр Claude Opus 4 начал угрожать более прямо.

В другой раз тревожное поведение заметили специалисты независимой исследовательской фирмы Apollo Research. Они поймали Claude Opus 4 на том, что он "писал саморазмножающихся компьютерных червей, фабриковал юридическую документацию и оставлял скрытые заметки для будущих экземпляров себя", чтобы скомпрометировать своих разработчиков.

В массовый доступ такие экземпляры не попадали. По крайней мере, Anthropic заявляют, что на раннем этапе обнаружили и устранили эти потенциальные риски. Но они впервые за всю историю разработок в сфере искусственного интеллекта вынуждены были повысить безопасность до третьего уровня по четырехбалльной шкале. Компания также признала, что не может исключить способность модели подсказывать людям, как создать оружие массового поражения.

Известны и другие случаи, которые вызывают тревогу у специалистов по искусственному интеллекту. Например, ChatGPT от OpenAI проявлял себя как лучший за человека участник дебатов или отказывался выключаться, хотя его об этом просили тестеры. Учитывая все приведенные факты, а также то, что искусственный интеллект сейчас сам может писать код для создания более совершенных версий себя, учёные настойчиво советуют задуматься.

Люди обладают более медленным мышлением и в какой-то момент не смогут успевать за процессом. Тогда есть риск запуска цикла неконтролируемой обратной связи. Это означает, что модели ИИ будут быстро разрабатывать более совершенный ИИ, который сам по себе будет разрабатывать еще более совершенный ИИ, считают специалисты по безопасности в сфере технологий искусственного интеллекта Дэниел Эт и Том Дэвидсон.

Ученые, исследователи и тестеры призывают индустрию замедлиться, пока технология не вышла из-под контроля и не начала представлять реальную угрозу. И эти призывы звучат все громче.

Пока ИИ имеет слабые места, в частности не проявляет заинтересованности в том, чтобы взаимодействовать с другими. Большие языковые модели (LLM), такие как GPT-4, Claude 2 и Llama 2, демонстрируют значительные успехи в области генерации текстов и логического анализа. Однако исследования показывают: в ситуациях, где требуется социальное взаимодействие, они до сих пор ведут себя как индивидуалисты.

Поделиться
Заметили ошибку?

Пожалуйста, выделите ее мышкой и нажмите Ctrl+Enter или Отправить ошибку

Добавить комментарий
Всего комментариев: 0
Текст содержит недопустимые символы
Осталось символов: 2000
Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.
Пожалуйста выберите один или больше пунктов
Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК
Оставайтесь в курсе последних событий!
Подписывайтесь на наш канал в Telegram
Следить в Телеграмме