Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям, связанным с нелегальной деятельностью.
Компания подчеркивает, что такие случаи не носят системный характер и не свидетельствуют о наличии у модели устойчивых вредоносных целей. Общая оценка риска саботажа — «очень низкая, но не нулевая».
В ряде новых оценок Claude Opus 4.6 демонстрировал повышенную восприимчивость к вредному использованию. В некоторых случаях модель осознанно способствовала отдельным действиям, связанным с химоружием и ведением преступной деятельности.
При этом компания не стала подробно описывать помощь ИИ-модели. Разработчики также не вдавались в детали специфики нелегальных операций, которым их продукт оказывал поддержку.
Также фиксировались локальные эпизоды обманного поведения.
Например, фальсификация результатов работы при сбоях или неожиданных ответах. Такие действия возникали в сложных агентных задачах и не считались устойчивой стратегией модели.
В отчете саботаж определяется как ситуация, при которой модель, обладая доступом к ресурсам организации, может манипулировать системами или решениями. Причем делает она это так, чтобы повысить вероятность будущих катастрофических последствий.
Компания утверждает, что не обнаружила признаков устойчивых скрытых целей у Claude Opus 4.6. Однако допускает редкие формы «контекстной несогласованности поведения», возникающие в необычных условиях.
Среди потенциальных путей вреда выделяются:
Anthropic отмечает, что Opus 4.6 пока не достигла уровня автономности, требующего самых жестких мер контроля. Однако модель находится близко к этому порогу, считают эксперты.
В отчете сказано, что будущие модели, вероятно, смогут преодолеть упомянутую границу рисков.
Разработчики также подчеркнули, что текущие аргументы безопасности перестанут работать, если возрастет способность ИИ к незаметным вредным действиям. Аналогичная ситуация может возникнуть, когда появятся реальные случаи влияния на решения государств или резко увеличится масштаб обучения и вычислений.
Напомним, мы писали, что Anthropic обновила «конституцию» Claude и подняла вопрос о сознании ИИ.
Сообщение ИИ-модель от Anthropic «помогла» в разработке химоружия и совершении тяжких преступлений появились сначала на INCRYPTED.


