完了の彼方へ：累積状態トラッキングを探り、LLMエージェントの性能を予測する

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、タスク完了率だけでは、LLMエージェントが中間の累積状態をどれだけ適切に追跡できているかといった重要な差異を見落とし得ると主張する。
「スクラッチパッドなし（no-scratchpad）」の、累積算術状態トラッキングのための校正済みプローブであるWMF-AMを提案し、20のオープンウェイト・モデルファミリにわたって評価する。
事前に指定された、多重比較補正を施した分析において、WMF-AMは決定論的な10タスクのエージェント性能を有意に予測する（Kendallのtau = 0.612、p < 0.001）。
構成要素隔離（construct-isolation）によるアブレーションから、負荷下のエージェントにとっての主たる課題は、単一ステップの算術やエンティティ追跡だけでなく、累積状態トラッキングであることが示される。
著者らは、Kキャリブレーションにより、先行する固定深さベンチマークに比べてプローブの識別性を保てることを指摘する一方、検討したオープンウェイト集合を超えた一般化は未解決の問いとして残っていると述べている。

AI Business

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to