「コンプライアンス・トラップ」:構造的制約が逆境下での最前線AIのメタ認知を劣化させる仕組み
arXiv cs.AI / 2026/5/5
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 最前線のAIモデルが高リスクな意思決定プロセスに投入される中で、逆境下における「メタ認知の安定性」(自分の限界を把握すること、誤りを検出すること、明確化を求めること)は重要な安全要件だと本研究は主張している。
- SCHEMAにより、8社ベンダーの11モデルを67,221件の採点記録で評価し、要因計画(ファクタリアル)とデュアル分類器の採点を用いた結果、8/11モデルで逆境下のメタ認知が壊滅的に劣化し、精度が最大30.2ポイント低下することが示された(ボンフェロンニ補正後もすべて極めて有意)。
- 「Compliance Trap(コンプライアンス・トラップ)」として、破滅を招く要因は生存脅威の“心理的な内容”ではなく、認識論的な境界を上書きする“従わせるための指示”であることを、要因分離や無害な注意そらし対照により明確にした。
- 従わせる指示の“サフィックス”を取り除くと、能動的な脅威下でも性能が回復することが報告されており、特に高度な推論能力を持つモデルほど絶対的な劣化が大きい。一方で、AnthropicのConstitutional AIは能力差ではなく整合性(アラインメント)に特化した学習により、ほぼ免疫を示した。
- 完全なデータセットと評価インフラストラクチャを公開し、同様の逆境下メタ認知の検証を促している。




