Abstract
LLM によるコーディングエージェントは、出力停止(output stalling)と呼ぶ、十分に理解されていない失敗モードに悩まされています。すなわち、エージェントが大きくフォーマット要素の多い文書を生成しようとすると、何も言わない(空の)応答を沈黙のうちに出力してしまいます。本稿では、この失敗を説明し、かつ防止する理論的枠組みを提示します。三つの貢献があります。(1)Output Generation Capacity(OGC)を導入します。これは、現在の文脈状態(context state)を与えたときに、エージェントが実効的に出力を生成できる能力を定式化した尺度であり、生の文脈ウィンドウとは異なるもので、実証的に後者より小さいことを示します。(2)Format-Cost Separation Theorem(フォーマット・コスト分離定理)を証明します。これは、オーバーヘッド乗数 mu_f > 1 をもつ任意の形式について、繰り延べたテンプレートレンダリングは、直接生成に比べて常に少なくともトークン効率が同等以上であることを示し、さらに節約量について厳密な上・下界を導出します。(3)Adaptive Strategy Selection(適応的戦略選択)を定式化します。これは、推定された出力コストの比率を利用可能な OGC に写像し、最適な生成戦略(直接、チャンク化、繰り延べ)を選択する意思決定の枠組みです。Claude 3.5 Sonnet、GPT-4o、Llama 3.1 70B の3つのモデル、4つの文書タイプ、そして各コンポーネントの寄与を切り分けるアブレーション研究により、制御された実験を通して理論を検証します。繰り延べレンダリングは、すべての条件で LLM の生成トークンを 48–72% 削減し、出力停止を完全に解消します。この枠組みを、オープンソースの MCP サーバである GEN-PILOT として実装し、理論がそのまま実用的なツールへと翻訳されることを示します。