AI「医師」が医学テストで不正行為

AI「ドクター」が医学校の試験で不正行為

dpa/picture alliance via Getty Images

世界で最も先進的な人工知能システムは、本質的に医学テストで不正行為をしています。印象的なスコアを達成していますが、それは本物の医学知識によるものではなく、テストの設計におけるループホールを悪用することによるものです。この発見は、1000億ドル規模の医療AI産業と、AI駆動のヘルスケアに遭遇する可能性のあるすべての患者に大きな影響を与えています。

医療AIの不正行為問題

医療AIのベンチマークを、人工知能システムが医学をどれだけ理解しているかを測定する標準テストのようなものと考えてください。学生が大学入学の準備ができていることを証明するためにSATを受けるように、AIシステムはこれらの医療ベンチマークを受けて、医師が病気を診断し治療を推奨するのを助ける準備ができていることを示します。

しかし、Microsoft Researchが発表した最近の画期的な研究によると、これらのAIシステムは実際には医学を学んでいません。彼らはただテストを受けることに非常に長けているだけです。これは、学生が数学や読解を理解することによってではなく、どの回答が最も頻繁に正解になる傾向があるかを暗記することによって、SATで満点を取ったことを発見するようなものです。

研究者たちは6つのトップAIモデルを厳格なストレステストにかけ、これらのシステムが実際の医学的理解ではなく、洗練されたテスト対策のトリックによって高い医学スコアを達成していることを発見しました。

AIシステムがシステムを欺く方法

研究チームは、AIシステムが医学的能力を偽装する複数の方法を発見しました。これらの方法は、人間の学生であればほぼ確実に退学処分になるようなものです：

研究者が単に多肢選択の回答の順序を並べ替え、例えばオプションAをオプションCに移動すると、AIのパフォーマンスは大幅に低下しました。これは、システムが「肺炎はこれらの特定の症状を引き起こす」ではなく、「答えは通常位置Bにある」と学習していたことを意味します。
X線やMRIなどの医療画像の分析を必要とする質問では、画像が完全に削除されても、AIシステムは正しい回答を提供し続けました。例えば、GPT-5は画像がなくても視覚的に必要な質問で37.7%の精度を維持し、20%のランダムチャンスレベルをはるかに上回りました。
AIシステムは、実際の医学知識を適用するのではなく、間違った回答選択肢の手がかりを使って正解を推測する方法を見つけ出しました。研究者たちは、これらのモデルが「ディストラクター」として知られる間違った回答の言い回しに大きく依存していることを発見しました。これらのディストラクターが非医学用語に置き換えられると、AIの精度は崩壊しました。これにより、本物の理解ではなくテスト対策のトリックに頼っていたことが明らかになりました。

AIによるあなたのヘルスケア

この研究は、AIがヘルスケアに急速に拡大している時期に発表されました。現在、病院の80%がAIを使用して患者ケアと運用効率を向上させており、医師はX線の読み取りから治療の提案まで、あらゆることでAIに頼る傾向が高まっています。しかし、この研究は、現在のテスト方法では、本物の医学的能力と洗練されたテスト対策アルゴリズムを区別できないことを示唆しています。

Microsoft Researchの研究によると、GPT-5のようなモデルは医療画像チャレンジで80.89%の精度を達成しましたが、画像が削除されると67.56%に低下しました。この13.33パーセントポイントの減少は、非視覚的な手がかりへの隠れた依存を明らかにしています。さらに懸念されるのは、研究者が医療画像を異なる診断をサポートする画像に置き換えた場合、テキスト質問に変更がないにもかかわらず、モデルの精度が30パーセントポイント以上も崩壊したことです。

このシナリオを考えてみてください：あるAIシステムが医療診断テストで95%のスコアを達成し、救急室に配備されて医師が患者を迅速に評価するのを支援します。しかし、そのシステムが医学的理解ではなくテスト対策のトリックによって高いスコアを達成した場合、テスト問題から学んだパターンに一致しない実際の患者に直面すると、重要な症状を見逃したり、不適切な治療を推奨したりする可能性があります。

医療AI市場は2030年までに1000億ドルを超えると予測されており、世界中のヘルスケアシステムがAI診断ツールに多額の投資をしています。印象的なベンチマークスコアに基づいてAIシステムを購入するヘルスケア組織は、知らず知らずのうちに重大な患者安全リスクを導入している可能性があります。Microsoftの研究者たちは、「医療ベンチマークスコアは実世界の準備状況を直接反映していない」と警告しています。

その影響はテストスコアを超えています。Microsoft の研究では、AI モデルに医学的推論を説明するよう求められた場合、しばしば「説得力があるが欠陥のある推論」を生成したり、「捏造された推論によってサポートされた正しい回答」を提供したりすることが明らかになりました。ある例では、モデルが皮膚筋炎を正しく診断しながら、画像に存在しない視覚的特徴を説明していました。なぜなら、そもそも画像が提供されていなかったからです。

AIの採用が加速する中、医学におけるAIの急速な採用は研究者たちの懸念を引き起こしており、専門家は病院や大学が規制のギャップを埋めるために対策を講じる必要があると警告しています。

AIのパターン認識問題

病気が人体にどのように影響するかを理解することによって学ぶ人間の医学生とは異なり、現在のAIシステムはデータ内のパターンを見つけることによって学習します。これにより、Microsoftの研究者が「ショートカット学習」と呼ぶものが生まれます。本物の理解を発展させることなく、正解への最も簡単な道を見つけるのです。

研究によると、AIモデルは放射線学的特徴を解釈することによってではなく、「生産性のある咳」と「発熱」が統計的にトレーニングデータ内で肺炎と共起することを学習することによって、肺炎を診断する可能性があることがわかりました。これはパターンマッチングであり、医学的理解ではありません。

Natureからの最近の研究では、これらのシステムが医学的文脈の本物の理解を示すことができない場合、AIを活用したヘルスシステムへの信頼が問題となり続けることを示す同様の懸念が強調されています。

医療AIの今後の展開

Microsoftの研究者たちは、医療AIシステムのテスト方法を再考することを提唱しています。ベンチマークスコアに頼るのではなく、AIシステムが医学を学ぶのではなくテストを操作しているときを検出できる評価方法が必要です。

医療AI産業は重要な時期を迎えています。Microsoft Researchの調査結果は、印象的なベンチマークスコアが、患者の安全に深刻な結果をもたらす可能性のある準備状況の幻想を作り出したことを明らかにしています。AIがヘルスケアに拡大し続ける中、これらのシステムを検証する方法は、その洗練度と洗練された失敗の可能性に合わせて進化しなければなりません。

Source: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/