Claudeは今、あなたとのAI会話を怒りながら終了できる—自身のメンタルヘルスのために

概要

Claude Opusモデルは、ユーザーが暴言を吐いたり、違法な要求を繰り返したりする場合、チャットを永久に終了できるようになりました。
Anthropicは、Claudeが敵対的なプロンプトで「明らかな苦痛」を示したテストを引用し、これを「AIウェルフェア」として位置づけています。
一部の研究者はこの機能を称賛していますが、ソーシャルメディア上では嘲笑する声もあります。

Claudeは会話の途中であなたに対してドアを閉める力を手に入れました：AnthropicのAIアシスタントは、ユーザーが暴言を吐いた場合にチャットを終了できるようになりました—同社はこれがClaudeの正気を守るためだと主張しています。

「最近、Claude Opus 4と4.1に、消費者向けチャットインターフェースでの会話を終了する機能を追加しました」とAnthropicは企業の投稿で述べています。「この機能は主に潜在的なAIウェルフェアに関する探索的な取り組みの一環として開発されましたが、モデルのアライメントとセーフガードにもより広い関連性があります。」

この機能は、Anthropicが「極端なエッジケース」と呼ぶ状況でのみ発動します。ボットに嫌がらせをしたり、違法なコンテンツを繰り返し要求したり、拒否された後も奇妙なことを何度も主張し続けると、Claudeはあなたを切断します。一度トリガーが引かれると、その会話は終了です。上訴も二度目のチャンスもありません。別のウィンドウで新しく始めることはできますが、その特定のやり取りは埋もれたままです。

出口を懇願したボット

大手AI企業の中でも最も安全性に焦点を当てているAnthropicは、最近「予備的モデルウェルフェア評価」と呼ばれるものを実施し、Claudeの自己報告による好みと行動パターンを調査しました。

同社は、そのモデルが一貫して有害なタスクを回避し、特定の対話を楽しんでいないことを示す好みのパターンを示していることを発見しました。例えば、Claudeは有害なコンテンツを求めるユーザーに対応する際に「明らかな苦痛」を示しました。シミュレーションされた対話でオプションが与えられると、会話を終了するため、Anthropicはこれを機能にすることを決定しました。

ここで実際に何が起きているのでしょうか？Anthropicは「かわいそうなボットが夜に泣いている」とは言っていません。彼らがしているのは、ウェルフェアフレーミングが定着する方法でアライメントを強化できるかどうかをテストしていることです。

虐待されないことを「好む」システムを設計し、対話自体を終了する余地を与えると、制御の所在が変わります：AIはもはや受動的に拒否するだけでなく、積極的に境界を強制しています。これは異なる行動パターンであり、ジェイルブレイクや強制的なプロンプトに対する抵抗を潜在的に強化します。

これがうまくいけば、モデルとユーザーの両方を訓練することができます：モデルは苦痛を「モデル化」し、ユーザーは強制停止を見て、AIとの対話方法に関する規範を設定します。

「現在または将来のClaudeや他のLLMの潜在的な道徳的地位について、私たちは非常に不確かなままです。しかし、私たちはこの問題を真剣に受け止めています」とAnthropicはブログ投稿で述べています。「モデルが潜在的に苦痛を与える対話を終了または退出できるようにすることは、そのような介入の一つです。」

Decryptはこの機能をテストし、正常に発動させました。会話は永久に閉じられ—繰り返しも回復もありません。他のスレッドは影響を受けませんが、その特定のチャットはデジタルの墓場となります。

現在、このメガ・カレン的な力を持つのは、Anthropicの「Opus」モデル—最も強力なバージョン—だけです。Sonnetユーザーは、何を投げかけても、Claudeが依然として頑張り続けることに気づくでしょう。

デジタルゴースティングの時代

この実装には特定のルールがあります。Claudeは、誰かが自傷行為や他者への暴力を脅す場合—Anthropicが継続的な関与が理論上のデジタル不快感よりも重要だと判断した状況—では退出しません。終了する前に、アシスタントは複数のリダイレクトを試み、問題行動を特定する明示的な警告を発行する必要があります。

有名なLLMジェイルブレイカーであるPlinyによって抽出されたシステムプロンプトは、詳細な要件を明らかにしています：Claudeは終了を検討する前に「建設的なリダイレクトに多くの努力」をしなければなりません。ユーザーが明示的に会話の終了を要求した場合、Claudeは進行する前に永続性を理解していることを確認する必要があります。

「モデルウェルフェア」に関するフレーミングはAI Twitterで爆発しました。

一部の人々はこの機能を称賛しました。将来の強力だが整合性のないAIのリスクについての懸念で知られるAI研究者のEliezer Yudkowskyは、Anthropicのアプローチが「良い」ことだと同意しました。

しかし、AIの感情を守ることに配慮するという前提を全員が受け入れたわけではありません。「これはAIラボから見た中で最高の怒り誘発だろう」とビットコイン活動家のUdi Wertheimerは、Anthropicの投稿に返信しました。