言語モデルは拒否するタイミングを知っているのか？安全境界に関する内省的気づきの探り

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、最前線の言語モデルが危険な要求を拒否することを事前に予測できるかどうかを検証する。手順は2段階で、まずモデルに拒否を予 forecast させ、その後に別の文脈で応答させる。
Claude Sonnet 4、Claude Sonnet 4.5、GPT-5.2、Llama 3.1 405Bの計3,754データポイント（300件の要求）にわたって、モデルは概ね高い内省的感度を示す（d' = 2.4–3.5）が、この感度は安全境界付近で低下する。
Claude Sonnet 4.5はSonnet 4に比べて拒否予測の精度が向上する（95.7% vs 93.0%）。一方でGPT-5.2は精度が低く（88.9%）、行動のばらつきも大きい。
Llama 405Bは感度は高いものの較正が不十分で、拒否バイアスが強いため、評価対象モデルの中で全体の精度が最も低い（80.0%）。
トピック別では、武器に関する質問が内省的予測において一貫して最も難しい。論文はさらに、信頼度スコアを実用的な信頼度ベースのルーティングに用いることができ、よく較正されたモデルにおいて高信頼度予測に絞ると最大98.3%の精度が得られることを示している。

Abstract

大規模言語モデルは有害な要求を拒否するよう訓練されているが、応答する前に拒否するかどうかを正確に予測できるだろうか？本研究では、モデルにまず拒否行動を予測させ、その後に新しい文脈で応答させるという手順を用いて、この問いを体系的に検討する。300件の要求にまたがる3754のデータ点を用い、4つの最先端モデル——Claude Sonnet 4、Claude Sonnet 4.5、GPT-5.2、Llama 3.1 405B——を評価する。信号検出理論（SDT）により、すべてのモデルが高い内省的感度（d' = 2.4-3.5）を示す一方で、安全性の境界付近では感度が大幅に低下することが分かる。Claude内では世代間の改善が観察される（Sonnet 4.5: 95.7パーセントの精度 vs Sonnet 4: 93.0パーセント）。一方、GPT-5.2は精度が低く（88.9パーセント）、行動のばらつきが大きい。Llama 405Bは高い感度を達成するが、強い拒否バイアスと不十分な校正（キャリブレーション）を示し、その結果、全体の精度が低い（80.0パーセント）。トピック別の分析では、武器に関連する質問が内省にとって一貫して最も難しいことが明らかになる。重要な点として、信頼度スコアは実行可能なシグナルを提供する。十分に校正されたモデルでは、高信頼度の予測に限定すると98.3パーセントの精度が得られ、安全性が重要な導入に向けて、信頼度に基づく実用的なルーティングが可能になる。