スキルを信頼するタイミングを知る:単一エージェントLLMにおける遅延評価と認識論的警戒

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、ツール統合された自律エージェントLLMにおける「コンテキスト汚染」や「考えすぎ」のような問題は、モデルの能力不足やスキル多様性の欠如ではなく、第二次のメタ認知的ガバナンスが欠けていることが原因だと主張しています。
  • 遅延評価(delayed appraisal)・認識論的警戒(epistemic vigilance)・「近接領域でのオフロード(region-of-proximal offloading)」といった、人間の認知的制御を単一エージェントに翻訳する設計を提案しています。
  • MESA-S(Metacognitive Skills for Agents, Single-agent)として、信頼度推定をベクトル化し、自己に対する自信(パラメトリックな確実性)と、外部取得手順への信頼(source-confidence)を分離します。
  • 遅延付きの手続きプローブ機構や「メタ認知スキル・カード(Metacognitive Skill Cards)」により、スキルの有用性の評価と、トークン集約的な実行を切り離します。
  • Gemini 3.1 Proで実行した初期のインコンテキスト静的ベンチマーク評価では、信頼の来歴を明示し遅延したエスカレーションを行うことで、供給網リスクの低減や不要な推論ループの削減、オフロードによる過剰な信頼度の抑制につながると示唆されています。