MIRROR:大規模言語モデルにおけるメタ認知的キャリブレーションを評価する階層型ベンチマーク

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、4つのメタ認知レベルにまたがる8つの実験からなるMIRRORというベンチマークを提案し、LLMが自己知識を意思決定の改善に活用できるかを検証します。
  • 約25万件の評価インスタンスで、8つの研究機関から16モデルを対象に分析した結果、複数領域タスクでの「合成的な自己予測」が一貫して失敗することを示し、合成キャリブレーション誤差が大きく幅広い範囲で観測されます。
  • モデルは領域固有の自己認識をある程度(偶然よりは高く)示すものの、その部分的な気づきをエージェントの行動選択へ適切に反映できず、体系的に誤った意思決定に至ることが分かります。
  • 外部のメタ認知的コントロールは「確信を持った失敗率」を0.600から0.143へ大きく低減しますが、モデル自身のキャリブレーションスコアを与えても統計的に有意な改善は得られません(p > 0.05)。これは安全な自律AIに向けて自己知識の向上よりも外部メタ認知スキャフォールドが重要であることを示唆します。
  • ベンチマークのコード、データ、Croissantメタデータは公開予定です。

要旨: 大規模言語モデルが自己の知識を用いてより良い意思決定を行えるかどうかを評価する、4つのメタ認知レベルにまたがる8つの実験から成るベンチマークであるMIRRORを紹介します。私たちは、5つの独立した行動計測チャネルを用いて、約250,000の評価インスタンスに対し、8つのラボからの16モデルを評価します。主要な実験は全モデル群に対して実施されます。特殊なインフラ要件を伴う実験では、明示的にマークされたモデルの部分集合が報告されます。エージェント型デプロイメントに直接的な含意を持つ2つの現象を見出します: (1) 構成的な自己予測は普遍的に失敗します -- 元の15モデルのExp3-v1セットにおいて、構成的キャリブレーション誤差(Compositional Calibration Error)は0.500から0.943の範囲であり(また、バランスさせた16モデルのExp3-v2への拡張では0.434から0.758)、モデルが複数領域タスクにおける自分自身の性能を予測できないことを示しています。さらに(2) モデルは領域固有の自己知識に関しては偶然を超える水準にあるものの不完全である一方で、そのような部分的な気づきを適切なエージェントの行動選択へと系統的に変換できません -- 外部のメタ認知制御は、Confident Failure Rateを0.600から0.143へと低減します(温度0で76%削減;温度0.7では4つのラボからの5モデルにわたって平均70%)。モデルに自身のキャリブレーションスコアを与えても有意な改善は得られません(p > 0.05);効果があるのはアーキテクチャ上の制約のみです。これは、自己知識の改善ではなく、外部のメタ認知足場(スキャフォールド)が、より安全な自律型AIシステムへの道であることを示唆します。コード、データ、およびCroissantのメタデータは、ベンチマークとともに公開されます。