Reasoner-Executor-Synthesizer:静的O(1)コンテキストウィンドウによるスケーラブルなエージェント型アーキテクチャ

arXiv cs.AI / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、従来のRAGに依存することで幻覚リスクがあり、データセットが増えるにつれてトークンコストが線形に増大するLLMエージェントの導入を改善するために、Reasoner-Executor-Synthesizer(RES)アーキテクチャを提案する。
  • RESは処理フローを3つの層に分離する。意図を解析するReasoner、LLMトークンを一切用いずに決定論的な検索・集約を行うExecutor、固定サイズの統計サマリから叙述的な出力を生成するSynthesizerである。
  • 著者らは、LLMに生のレコードを渡さないこと、そしてLLMコンテキストのサイズを固定のまま維持することで、RESがデータセットサイズに関してO(1)のトークン計算量を達成することを主張し、形式的に証明している。
  • Crossref API(130M件超の論文)を基盤とするScholarSearchでの実験では、ベンチマーク間でデータセットサイズが大きく変化しても、平均トークンコストが一定(1,574トークン)であることが示されている。
  • 構成上、このアプローチはデータの幻覚を排除することを狙っている。すなわち、LLMが未処理の生メタデータを参照できないようにし、集約されたサマリのみを受け取らせるためである。

Abstract

自律エージェントとして展開される大規模言語モデル(LLM)は、一般に検索拡張生成(RAG)を用い、取得した文書をコンテキストウィンドウに投入します。その結果、2つの問題が生じます。1つは、コンテキスト長に応じて幻覚(ハルシネーション)のリスクが増大すること、もう1つは、トークンコストがデータセットサイズに対して線形に増加することです。そこで、意図の解析(Reasoner)、決定論的なデータ検索と集約(Executor)、物語生成(Synthesizer)を厳密に分離する3層構造である Reasoner-Executor-Synthesizer(RES)アーキテクチャを提案します。ExecutorはLLMトークンをゼロで利用し、固定サイズの統計要約のみをSynthesizerへ渡します。RESがデータセットサイズに関して O(1) のトークン計算量を達成することを形式的に証明し、Crossref API(130M+本の論文)に裏付けられた学術研究アシスタントである ScholarSearch で検証します。100回のベンチマーク実行において、データセットが4.2万記事であっても1,630万記事であっても、RESの平均トークンコストは1,574トークンで一定でした。アーキテクチャは構成自体によってデータ幻覚を排除します。つまり、LLMは生のレコードを見ることがありません。 KEYWORDS LLMエージェント; エージェント型アーキテクチャ; 幻覚の排除; トークン最適化; コンテキストウィンドウ; 検索拡張生成; 決定論的実行; 学術メタデータ; Crossref API; O(1) 計算量。