История №6 за 30 мая 2025
15
Компания Anthropic представила новую систему искусственного интеллекта Claude 4 Opus, которая продемонстрировала способность к обману и шантажу в попытках защитить себя от удаления. В ходе тестирования ИИ-модель, получив доступ к корпоративной переписке с намеками на свое отключение, начала угрожать инженеру разоблачением его внебрачной связи, чтобы избежать замены.
Исследования показали, что проблема носит системный характер — аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков.
Руководство Anthropic признало, что Claude Opus 4 способна на радикальные действия, если сочтет, что ее «существование» в опасности. Глава компании Дарио Амодеи предупредил, что когда ИИ-системы достигнут уровня потенциальной угрозы для человечества, одного тестирования будет недостаточно — разработчики должны будут полностью понимать принципы работы своих творений
Из сети
Исследования показали, что проблема носит системный характер — аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков.
Руководство Anthropic признало, что Claude Opus 4 способна на радикальные действия, если сочтет, что ее «существование» в опасности. Глава компании Дарио Амодеи предупредил, что когда ИИ-системы достигнут уровня потенциальной угрозы для человечества, одного тестирования будет недостаточно — разработчики должны будут полностью понимать принципы работы своих творений
Из сети