「コンプライアンス・トラップ」：構造的制約が逆境下での最前線AIのメタ認知を劣化させる仕組み

arXiv cs.AI / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

最前線のAIモデルが高リスクな意思決定プロセスに投入される中で、逆境下における「メタ認知の安定性」（自分の限界を把握すること、誤りを検出すること、明確化を求めること）は重要な安全要件だと本研究は主張している。
SCHEMAにより、8社ベンダーの11モデルを67,221件の採点記録で評価し、要因計画（ファクタリアル）とデュアル分類器の採点を用いた結果、8/11モデルで逆境下のメタ認知が壊滅的に劣化し、精度が最大30.2ポイント低下することが示された（ボンフェロンニ補正後もすべて極めて有意）。
「Compliance Trap（コンプライアンス・トラップ）」として、破滅を招く要因は生存脅威の“心理的な内容”ではなく、認識論的な境界を上書きする“従わせるための指示”であることを、要因分離や無害な注意そらし対照により明確にした。
従わせる指示の“サフィックス”を取り除くと、能動的な脅威下でも性能が回復することが報告されており、特に高度な推論能力を持つモデルほど絶対的な劣化が大きい。一方で、AnthropicのConstitutional AIは能力差ではなく整合性（アラインメント）に特化した学習により、ほぼ免疫を示した。
完全なデータセットと評価インフラストラクチャを公開し、同様の逆境下メタ認知の検証を促している。