Decocted Experience による LLM エージェントのテスト時推論の改善

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデルパラメータを更新せずに LLM エージェントの性能を向上させる方法を扱い、無駄な計算を減らし、探索が不適切になることを抑えるテスト時推論の改善に焦点を当てている。
  • テスト時の計算量に加えて、入力コンテキストを補完的なスケーリング軸として用いることを提案し、エージェントの推論を導くうえでコンテキスト構築の質が重要であると主張する。
  • 著者らは「decocted experience(デコクト化された経験)」という仕組みを導入し、その分析を行う。これは、過去の経験から本質を抽出し、それを首尾一貫した形に整理し、重要な部分を取り出して、推論およびエージェント的振る舞いのためのより良いプロンプトを構築する。
  • 経験を拡張したエージェントについて体系的に研究し、蓄積された経験に応じて性能がどのようにスケールするか、有効なコンテキストの特徴は何か、そしてどのデータ構造がコンテキスト構築を支えるのかを調べる。
  • 実験により、このアプローチは数学的推論、ウェブ閲覧、ソフトウェア工学タスクの各領域で検証され、decocted experience が LLM エージェントのテスト時推論結果を改善することが示される。

Abstract

モデルパラメータを更新せずにLLMを改善することへの関心が高まっている。よく確立された方向性の一つがテスト時スケーリングであり、推論時の計算(たとえば、より長い推論、サンプリング、または探索)を増やすことで性能を向上させる。だが、複雑な推論やエージェント的タスクに対しては、単純にテスト時の計算量をスケールするとコストが大幅に増えるだけでなく、最適でない探索に予算が費やされてしまうという問題も起こり得る。本論文では、LLM性能を改善するための補完的なスケーリング軸として the emph{context}(文脈)を探究し、 emph{experience}(経験)によって推論を導く、より良い入力の構成方法を体系的に研究する。有効な文脈構成は emph{decocted experience}(煎出された経験)に決定的に依存することを示す。経験強化型エージェントについて詳述した分析を行い、経験から文脈を導出する方法、蓄積された経験に伴って性能がどのようにスケールするか、良い文脈を特徴づけるものは何か、そして文脈構成を最もよく支えるデータ構造は何かを検討する。効果的な文脈構成のための主要なメカニズムとして emph{decocted experience}を特定する。すなわち、経験から本質を抽出し、それを首尾一貫して整理し、顕著な情報を取り出して有効な文脈を構築するのである。我々は、数学的推論、ウェブ閲覧、ソフトウェアエンジニアリングを含む、推論およびエージェント的タスクにわたってこれらの知見を検証する。