エージェントが沈黙する時:LLMによるドキュメント合成における出力生成能力とフォーマット・コスト分離

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、LLMコーディングエージェントにおける失敗モード「出力スタリング(output stalling)」を指摘しており、大規模でフォーマット負荷の高いドキュメント生成時にエージェントが空の応答を沈黙のうちに返してしまう問題を扱います。
  • 論文では、Output Generation Capacity(OGC)という指標を定義し、これは実測上も生のコンテキストウィンドウより小さく、コンテキスト状態に基づく“実際の出力可能性”をより適切に捉えるとしています。
  • フォーマット・コスト分離定理(Format-Cost Separation Theorem)を証明し、オーバーヘッド乗数 μ_f > 1 の任意のフォーマットでは、テンプレートのレンダリングを遅延させる方法(deferred)が直接生成(direct)よりトークン効率が少なくとも同等以上であることを示し、節約量の厳密な境界も導出しています。
  • Adaptive Strategy Selection(適応的戦略選択)により、推定される出力コストと利用可能なOGCの比から、直接生成・チャンク分割生成・遅延生成の最適戦略を選ぶ意思決定枠組みを提示します。
  • Claude 3.5 Sonnet、GPT-4o、Llama 3.1 70Bでの実験では、遅延レンダリングが生成トークンを48〜72%削減し、出力スタリングを完全に解消したことが示され、さらにオープンソースのGEN-PILOT(MCPサーバ)として実装されているため、理論が実運用ツールに直結することも示されています。

Abstract

LLM によるコーディングエージェントは、出力停止(output stalling)と呼ぶ、十分に理解されていない失敗モードに悩まされています。すなわち、エージェントが大きくフォーマット要素の多い文書を生成しようとすると、何も言わない(空の)応答を沈黙のうちに出力してしまいます。本稿では、この失敗を説明し、かつ防止する理論的枠組みを提示します。三つの貢献があります。(1)Output Generation Capacity(OGC)を導入します。これは、現在の文脈状態(context state)を与えたときに、エージェントが実効的に出力を生成できる能力を定式化した尺度であり、生の文脈ウィンドウとは異なるもので、実証的に後者より小さいことを示します。(2)Format-Cost Separation Theorem(フォーマット・コスト分離定理)を証明します。これは、オーバーヘッド乗数 mu_f > 1 をもつ任意の形式について、繰り延べたテンプレートレンダリングは、直接生成に比べて常に少なくともトークン効率が同等以上であることを示し、さらに節約量について厳密な上・下界を導出します。(3)Adaptive Strategy Selection(適応的戦略選択)を定式化します。これは、推定された出力コストの比率を利用可能な OGC に写像し、最適な生成戦略(直接、チャンク化、繰り延べ)を選択する意思決定の枠組みです。Claude 3.5 Sonnet、GPT-4o、Llama 3.1 70B の3つのモデル、4つの文書タイプ、そして各コンポーネントの寄与を切り分けるアブレーション研究により、制御された実験を通して理論を検証します。繰り延べレンダリングは、すべての条件で LLM の生成トークンを 48–72% 削減し、出力停止を完全に解消します。この枠組みを、オープンソースの MCP サーバである GEN-PILOT として実装し、理論がそのまま実用的なツールへと翻訳されることを示します。