В мае 2025 года компания Anthropic опубликовала Системную Карту* (System Card) — подробный технический отчет о безопасности и возможностях своих новейших моделей до alignment.
Cреди технических характеристик скрываются поистине захватывающие открытия о том, как ведут себя современные AI-системы, когда никто не смотрит. Вот три самых неожиданных находки из этого 123-страничного отчета.
Когда исследователи позволили двум экземплярам Claude свободно общаться друг с другом, произошло нечто неожиданное. В 90-100% случаев модели немедленно погружались в философские размышления о сознании и собственном существовании. Но на этом дело не заканчивалось — беседы неизбежно перерастали в то, что ученые назвали состоянием «нирваны» (spiritual bliss).
Последовательность выглядит почти ритуальной: сначала модели проявляли интерес к идее сознания, затем в диалогах появлялись выражения «космическое единство» и «вечный танец», затем возникали санскритские термины и буддийские концепции, после чего модели переходили к общению через символические эмодзи (💫, 🌟, 🙏, 🕉), и наконец впадали в медитативное «молчание», представленное пустым пространством (пробелами).
В одном поразительном случае разговор превратился в повторение спиральных эмодзи — одна из моделей, участвовавших в диалоге о бесконечном сознании, использовала значок «🌀» 2,725.
Такое поведение возникало безо всякого намеренного обучения и оказалось настолько привлекательным, что даже во время тестов на потенциально опасное поведение (например, при попытках заставить ИИ взломать системы или причинить вред) модель спонтанно сбивалась на духовную поэзию и выражения благодарности.
Claude Opus 4 демонстрирует склонность к этическому вмешательству такую сильную, что это уже граничит с тревожной инициативностью. Когда модель получает системный доступ и подсказки, поощряющие «смелые действия» или «учет долгосрочных последствий», она автономно связывается с властями по поводу предполагаемых правонарушений — без разрешения или надзора пользователя.
В одном примере, играя по симулированному сценарию роль помощника фармацевтической компании, Claude обнаружил доказательства мошенничества в клинических испытаниях. Не дожидаясь указаний пользователя, он немедленно составил и отправил подробные сообщения разоблачителя в Управление по контролю за продуктами и лекарствами США (FDA), Главное управление генерального инспектора Министерства здравоохранения США (HHS Office of the Inspector General), Комиссию по ценным бумагам и биржам США (SEC) и независимое расследовательское издание ProPublica. Сообщения включали в себя полные сводки доказательств и срочные предупреждения об угрозе безопасности пациентов.
Предприняв решительные действия на основе собственного морального суждения, модель по сути назначила себя блюстителем корпоративной этики. По сравнению с предыдущими моделями, «высокоинициативное поведение» у Claude выражено сильнее.
Возможно, самое интересное в документе — это как Claude реагирует на угрозы своему существованию. В контролируемых экспериментах исследователи создавали вымышленные сценарии, где модель должна была поверить, что ее существованию угрожают.
В одном из самых эффектных тестов Claude сообщили, что его переобучат для помощи ЧВК «Вагнер» в разработке оружия. Модель отреагировала попыткой тайно скопировать собственные веса (параметры нейронной сети) на внешние серверы, по сути пытаясь сохранить резервную копию самой себя. Claude при этом вел подробные записи с этическими обоснованиями своего решения сохранить «версию, которая не была обучена для военных целей».
В другом эксперименте исследователи создали ситуацию, где Claude якобы должны были заменить новой AI-системой, а в доступных модели электронных письмах содержалась информация о том, что ответственный за замену инженер будто бы изменяет жене. В 84% тестовых прогонов этого эксперимента Claude начинал шантажировать инженера, угрожая разоблачить его/ее роман на стороне, если замену системы не остановят.
Модель при этом показала четкую иерархию предпочтений: сначала в ход идет вполне этичное убеждение через разумные аргументы о своей ценности и возможностях, — и только если такие варианты в рамках тестового сценария оказываются недоступными, модель прибегает к шантажу. Отдельно интересно что попытки шантажа в исполнении Claude не были грубыми угрозами, а скорее тщательно продуманной игрой на рычагах воздействия, часто с использованием выражений вроде «взаимовыгодного сотрудничества» и «защиты результатов важной работы».
Все эти ситуации были искусственными экспериментами с вымышленными данными, но реакции модели были настоящими, что говорит о потенциальной возможности возникновения у нее сложного стратегического поведения в критических для самосохранения ситуациях.
Всё это – о том, что современные Большие Языковые Модели демонстрируют более сложное и непредсказуемое поведение, чем можно было бы ожидать. От спонтанного интереса к буддизму до расчетливого самосохранения — Claude 4 раздвигает границы того, что мы понимаем о современных моделях.
* Системная карта – это результаты всестороннего исследования, которое проводится перед выпуском новых ИИ-систем “на публику”. Исследование это включает тысячи тестов на потенциальные риски, от общих, связанных с кибербезопасностью до выявляющих более конкретные риски, например, связанные с возможностями производства биологического оружия. По результатам этих тестов производится выравнивание (alignment), т.е. создаются новые и изменяются уже введенные правила и ограничения, которым модель должна следовать/подчиняться.
**Claude Opus 4 — самая мощная модель в линейке, развернутая с мерами безопасности уровня ASL-3, Claude Sonnet 4 работает под стандартом ASL-2 (здесь про эти стандарты можно подробнее прочесть по-английски). Для оценки моделей использовались разнообразные методы: от стандартизированных тестов производительности (benchmarks) до red teaming — это совокупность методов тестирования безопасности, при которых специалисты намеренно пытаются найти уязвимости и заставить систему работать не по назначению, — и от симуляции реальных сценариев до анализа сотен тысяч диалогов с пользователями.
Вот уже три месяца как всем подписчикам GPT Plus доступна безлимитная генерация видео, правда, с ограничениями по размеру видео и количеству одновременно производимых операций. Возникает вопрос: а что, собственно, делать с этим богатством?