言語モデルエージェントにおける探索(exploration)と活用(exploitation)のエラーは測定可能である

arXiv cs.AI / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントの内部ポリシーがアクセスできない場合でも、言語モデル(LM)エージェントにおける探索と活用のエラーを測定するための、ポリシー非依存の手法を提案する。
  • タスクDAG(directed acyclic graph)が未知の、制御可能な部分観測可能な2Dグリッド環境を導入し、難易度を調整することで探索または活用を強調できるようにする。
  • 著者らは、観測された行動から探索/活用エラーを推定する指標を定義し、異なるLMエージェント手法間で体系的な評価を可能にする。
  • 複数の最先端LMエージェントに対する実験では、依然として最先端モデルが困難に直面しており、モデル間で失敗の型に顕著な違いがあることが示される。
  • 本研究は、推論に重点を置くモデルの方がより良いこと、また、比較的小規模なハーネス(評価セットアップ)に関するエンジニアリング変更によって、探索と活用の両方を改善できることを見出し、さらにコードを公開する。

概要: 言語モデル(LM)エージェントは、AIコーディングから物理的AIに至るまでの、複雑で開かれた意思決定タスクにおいてますます利用されている。これらの状況における中核的な要件は、問題空間を探索することと、獲得した知識を効果的に活用することの両方を行える能力である。しかし、エージェントの内部ポリシーにアクセスできない中で、観測された行動から探索と活用を体系的に切り分け、定量化することは依然として難しい。これに対処するため、実際の身体性(embodied)AIのシナリオに着想を得た、制御可能な環境を設計する。各環境は、部分的に観測可能な2Dグリッド地図と、未知のタスク指向非循環グラフ(DAG)から構成される。地図生成は、探索または活用の難しさを強調するようにプログラム的に調整できる。ポリシーに依存しない評価を可能にするために、エージェントの行動から探索と活用の誤りを定量化する指標を設計する。さまざまなフロンティアLMエージェントを評価したところ、最先端モデルであっても本タスクでは苦戦しており、異なるモデルは異なる失敗モードを示すことがわかった。さらに、推論モデルは本タスクをより効果的に解決し、また最小限のハーネス(実験環境)エンジニアリングによって、探索と活用の両方が大幅に改善できることも観察した。コードを
\href{https://github.com/jjj-madison/measurable-explore-exploit}{こちら} で公開する。