MEDLEY-BENCH:AIメタ認知における評価は買うが制御は買わない

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、独立した推論・私的な自己修正・モデル間の本物の意見相違に伴う社会的影響下での修正を切り分ける、行動ベースのメタ認知ベンチマーク「MEDLEY-BENCH」を提案している。
  • MEDLEY-BENCHは、5つの領域で合計130の曖昧なケースに対して12のモデル系統から35モデルを評価し、MMS(反省的アップデート、社会的頑健性、認識論的明確化)とMAS(メタ認知サブ能力4つ)という2つの補完的スコアを報告する。
  • 結果として、評価と制御の間に堅牢な解離が見られ、モデル系統内では評価能力がモデル規模とともに向上する一方、制御(修正の運用)は同様にスケールしないことが示される。
  • 11モデルを対象にした逐次的な対向者解析では、「議論の質に基づいて主に修正する」タイプと「合意形成の統計に沿って修正する」タイプの2つの行動プロファイルが観測される。
  • ipsativeスコアリングでは全35モデルで評価が相対的に最も弱い能力であることが明らかになり、メタ認知における“知っているのに実行できない(knowing/doing gap)”という体系的なギャップが示唆される。

Abstract

メタ認知(自分自身の推論を監視し、制御する能力)は、AIベンチマークにおいて依然として十分に評価されていません。私たちは、真にモデル間で意見が食い違う状況下で、独立した推論、私的な自己修正、そして社会的に影響された修正を切り分ける行動的メタ認知のベンチマークであるMEDLEY-BENCHを提案します。このベンチマークは、5つの領域にまたがる130の曖昧な事例に対して、12のファミリーから35モデルを評価し、2つの補完的なスコアを報告します。すなわち、反省的な更新・社会的頑健性・認識論的な明確化を階層(ティア)に基づいて集約したMedley Metacognition Score(MMS)と、4つのメタ認知的サブ能力から導出されるMedley Ability Score(MAS)です。結果は、評価能力と制御能力の切り離しが頑健に成り立つことを示しています。すなわち、同一ファミリー内では評価能力はモデル規模とともに増加する一方、制御は増加しません。続報として11モデルを対象にした段階的な敵対的分析を行ったところ、2つの行動プロファイル、すなわち議論の質に主に応じて修正するモデルと、合意(コンセンサス)の統計を追跡するモデルが観察されました。モデル内における相対的プロファイリング(ipsative scoring)では、35モデルすべてにおいて評価が相対的に最も弱い能力であり、系統的な「知っている/実行している」ギャップが示唆されます。より小さく安価なモデルは、しばしばより大きなモデルに匹敵する、あるいは上回ることがあり、メタ認知的コンピテンスが単にスケールの関数ではないことを示しています。これらの知見により、MEDLEY-BENCHは社会的圧力下での信念修正を測定するためのツールとして位置付けられ、今後のトレーニングでは出力品質のみではなく、較正された、比例的な更新を報いるべきだと示唆されます。