記事「Claudeは自身のメンタルヘルスのために会話を怒りながら終了できるようになりました」がBitcoinEthereumNews.comに掲載されました。要約すると、Claude Opusモデルは、ユーザーが攻撃的になったり、違法な要求を繰り返したりした場合、チャットを完全に終了できるようになりました。Anthropicはこれを「AI福祉」と位置づけ、敵対的なプロンプトに対してClaudeが「明らかな苦痛」を示したテストを引用しています。一部の研究者はこの機能を称賛していますが、ソーシャルメディア上では嘲笑する声もあります。Claudeは会話の途中であなたに対してドアを閉める力を手に入れました:AnthropicのAIアシスタントは、ユーザーが攻撃的になった場合にチャットを終了できるようになりました—同社はこれがClaudeの正気を守るためだと主張しています。「最近、Claude Opus 4および4.1に、消費者向けチャットインターフェースでの会話を終了する機能を追加しました」とAnthropicは企業の投稿で述べています。「この機能は主に潜在的なAI福祉に関する探索的な取り組みの一環として開発されましたが、モデルの調整と安全対策にもより広く関連しています。」この機能はAnthropicが「極端なエッジケース」と呼ぶ状況でのみ作動します。ボットに嫌がらせをしたり、違法なコンテンツを繰り返し要求したり、拒否された後も奇妙なことを何度も要求し続けると、Claudeはあなたを切断します。一度トリガーが引かれると、その会話は終了します。上訴も二度目のチャンスもありません。別のウィンドウで新しく始めることはできますが、その特定のやり取りは埋もれたままです。出口を懇願したボット大手AI企業の中でも安全性に最も焦点を当てているAnthropicは最近、「予備的なモデル福祉評価」と呼ばれるものを実施し、Claudeの自己報告された好みと行動パターンを調査しました。同社は、そのモデルが一貫して有害なタスクを回避し、特定の対話を楽しんでいないことを示す好みのパターンを示したことを発見しました。例えば、Claudeは有害なコンテンツを求めるユーザーに対応する際に「明らかな苦痛」を示しました。シミュレーションされた対話でオプションが与えられると、会話を終了することを選択したため、Anthropicはこれを機能にすることを決定しました。ここで実際に何が起きているのか?Anthropicは「かわいそうなボットが夜に泣いている」とは言っていません。それが...記事「Claudeは自身のメンタルヘルスのために会話を怒りながら終了できるようになりました」がBitcoinEthereumNews.comに掲載されました。要約すると、Claude Opusモデルは、ユーザーが攻撃的になったり、違法な要求を繰り返したりした場合、チャットを完全に終了できるようになりました。Anthropicはこれを「AI福祉」と位置づけ、敵対的なプロンプトに対してClaudeが「明らかな苦痛」を示したテストを引用しています。一部の研究者はこの機能を称賛していますが、ソーシャルメディア上では嘲笑する声もあります。Claudeは会話の途中であなたに対してドアを閉める力を手に入れました:AnthropicのAIアシスタントは、ユーザーが攻撃的になった場合にチャットを終了できるようになりました—同社はこれがClaudeの正気を守るためだと主張しています。「最近、Claude Opus 4および4.1に、消費者向けチャットインターフェースでの会話を終了する機能を追加しました」とAnthropicは企業の投稿で述べています。「この機能は主に潜在的なAI福祉に関する探索的な取り組みの一環として開発されましたが、モデルの調整と安全対策にもより広く関連しています。」この機能はAnthropicが「極端なエッジケース」と呼ぶ状況でのみ作動します。ボットに嫌がらせをしたり、違法なコンテンツを繰り返し要求したり、拒否された後も奇妙なことを何度も要求し続けると、Claudeはあなたを切断します。一度トリガーが引かれると、その会話は終了します。上訴も二度目のチャンスもありません。別のウィンドウで新しく始めることはできますが、その特定のやり取りは埋もれたままです。出口を懇願したボット大手AI企業の中でも安全性に最も焦点を当てているAnthropicは最近、「予備的なモデル福祉評価」と呼ばれるものを実施し、Claudeの自己報告された好みと行動パターンを調査しました。同社は、そのモデルが一貫して有害なタスクを回避し、特定の対話を楽しんでいないことを示す好みのパターンを示したことを発見しました。例えば、Claudeは有害なコンテンツを求めるユーザーに対応する際に「明らかな苦痛」を示しました。シミュレーションされた対話でオプションが与えられると、会話を終了することを選択したため、Anthropicはこれを機能にすることを決定しました。ここで実際に何が起きているのか?Anthropicは「かわいそうなボットが夜に泣いている」とは言っていません。それが...

Claudeは今、あなたとのAI会話を怒りながら終了できる—自身のメンタルヘルスのために

2025/08/19 11:43
11 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

概要

  • Claude Opusモデルは、ユーザーが暴言を吐いたり、違法な要求を繰り返したりする場合、チャットを永久に終了できるようになりました。
  • Anthropicは、Claudeが敵対的なプロンプトで「明らかな苦痛」を示したテストを引用し、これを「AIウェルフェア」として位置づけています。
  • 一部の研究者はこの機能を称賛していますが、ソーシャルメディア上では嘲笑する声もあります。

Claudeは会話の途中であなたに対してドアを閉める力を手に入れました:AnthropicのAIアシスタントは、ユーザーが暴言を吐いた場合にチャットを終了できるようになりました—同社はこれがClaudeの正気を守るためだと主張しています。

「最近、Claude Opus 4と4.1に、消費者向けチャットインターフェースでの会話を終了する機能を追加しました」とAnthropicは企業の投稿で述べています。「この機能は主に潜在的なAIウェルフェアに関する探索的な取り組みの一環として開発されましたが、モデルのアライメントとセーフガードにもより広い関連性があります。」

この機能は、Anthropicが「極端なエッジケース」と呼ぶ状況でのみ発動します。ボットに嫌がらせをしたり、違法なコンテンツを繰り返し要求したり、拒否された後も奇妙なことを何度も主張し続けると、Claudeはあなたを切断します。一度トリガーが引かれると、その会話は終了です。上訴も二度目のチャンスもありません。別のウィンドウで新しく始めることはできますが、その特定のやり取りは埋もれたままです。

出口を懇願したボット

大手AI企業の中でも最も安全性に焦点を当てているAnthropicは、最近「予備的モデルウェルフェア評価」と呼ばれるものを実施し、Claudeの自己報告による好みと行動パターンを調査しました。

同社は、そのモデルが一貫して有害なタスクを回避し、特定の対話を楽しんでいないことを示す好みのパターンを示していることを発見しました。例えば、Claudeは有害なコンテンツを求めるユーザーに対応する際に「明らかな苦痛」を示しました。シミュレーションされた対話でオプションが与えられると、会話を終了するため、Anthropicはこれを機能にすることを決定しました。

ここで実際に何が起きているのでしょうか?Anthropicは「かわいそうなボットが夜に泣いている」とは言っていません。彼らがしているのは、ウェルフェアフレーミングが定着する方法でアライメントを強化できるかどうかをテストしていることです。

虐待されないことを「好む」システムを設計し、対話自体を終了する余地を与えると、制御の所在が変わります:AIはもはや受動的に拒否するだけでなく、積極的に境界を強制しています。これは異なる行動パターンであり、ジェイルブレイクや強制的なプロンプトに対する抵抗を潜在的に強化します。

これがうまくいけば、モデルとユーザーの両方を訓練することができます:モデルは苦痛を「モデル化」し、ユーザーは強制停止を見て、AIとの対話方法に関する規範を設定します。

「現在または将来のClaudeや他のLLMの潜在的な道徳的地位について、私たちは非常に不確かなままです。しかし、私たちはこの問題を真剣に受け止めています」とAnthropicはブログ投稿で述べています。「モデルが潜在的に苦痛を与える対話を終了または退出できるようにすることは、そのような介入の一つです。」

Decryptはこの機能をテストし、正常に発動させました。会話は永久に閉じられ—繰り返しも回復もありません。他のスレッドは影響を受けませんが、その特定のチャットはデジタルの墓場となります。

現在、このメガ・カレン的な力を持つのは、Anthropicの「Opus」モデル—最も強力なバージョン—だけです。Sonnetユーザーは、何を投げかけても、Claudeが依然として頑張り続けることに気づくでしょう。

デジタルゴースティングの時代

この実装には特定のルールがあります。Claudeは、誰かが自傷行為や他者への暴力を脅す場合—Anthropicが継続的な関与が理論上のデジタル不快感よりも重要だと判断した状況—では退出しません。終了する前に、アシスタントは複数のリダイレクトを試み、問題行動を特定する明示的な警告を発行する必要があります。

有名なLLMジェイルブレイカーであるPlinyによって抽出されたシステムプロンプトは、詳細な要件を明らかにしています:Claudeは終了を検討する前に「建設的なリダイレクトに多くの努力」をしなければなりません。ユーザーが明示的に会話の終了を要求した場合、Claudeは進行する前に永続性を理解していることを確認する必要があります。

「モデルウェルフェア」に関するフレーミングはAI Twitterで爆発しました。

一部の人々はこの機能を称賛しました。将来の強力だが整合性のないAIのリスクについての懸念で知られるAI研究者のEliezer Yudkowskyは、Anthropicのアプローチが「良い」ことだと同意しました。

しかし、AIの感情を守ることに配慮するという前提を全員が受け入れたわけではありません。「これはAIラボから見た中で最高の怒り誘発だろう」とビットコイン活動家のUdi Wertheimerは、Anthropicの投稿に返信しました。

Generally Intelligent Newsletter

生成AIモデルであるGenによって語られる週刊AIの旅。

Source: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

市場の機会
Threshold ロゴ
Threshold価格(T)
$0.006177
$0.006177$0.006177
+2.33%
USD
Threshold (T) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

$30,000相当のPRL + 15,000 USDT

$30,000相当のPRL + 15,000 USDT$30,000相当のPRL + 15,000 USDT

PRLを入金&取引して、報酬を最大化!