言語モデルは拒否するタイミングを知っているのか?安全境界に関する内省的気づきの探り
arXiv cs.CL / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、最前線の言語モデルが危険な要求を拒否することを事前に予測できるかどうかを検証する。手順は2段階で、まずモデルに拒否を予 forecast させ、その後に別の文脈で応答させる。
- Claude Sonnet 4、Claude Sonnet 4.5、GPT-5.2、Llama 3.1 405Bの計3,754データポイント(300件の要求)にわたって、モデルは概ね高い内省的感度を示す(d' = 2.4–3.5)が、この感度は安全境界付近で低下する。
- Claude Sonnet 4.5はSonnet 4に比べて拒否予測の精度が向上する(95.7% vs 93.0%)。一方でGPT-5.2は精度が低く(88.9%)、行動のばらつきも大きい。
- Llama 405Bは感度は高いものの較正が不十分で、拒否バイアスが強いため、評価対象モデルの中で全体の精度が最も低い(80.0%)。
- トピック別では、武器に関する質問が内省的予測において一貫して最も難しい。論文はさらに、信頼度スコアを実用的な信頼度ベースのルーティングに用いることができ、よく較正されたモデルにおいて高信頼度予測に絞ると最大98.3%の精度が得られることを示している。




