エージェント型コンパイル:最小推論コストのWeb自動化のためのLLM「再実行危機」緩和

arXiv cs.AI / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 連続推論ループでブラウザ状態を評価し続けるLLM駆動Webエージェントには、実行頻度に応じてトークン消費とAPI遅延が概ね線形に増える根本的なスケーラビリティ制約があり、論文はこれを「再実行危機(Rerun Crisis)」と定義しています。
  • LLMの推論とブラウザ実行を切り離すCompile-and-Executeアーキテクチャを提案し、DOMを意味的に表現したトークン効率の良い入力をDSM経由で1回のLLM呼び出しで処理して、決定的なJSONの「ワークフローブループリント」を生成した後、軽量ランタイムで実行します。
  • 推論コストのスケーリングはO(M×N)から償却O(1)へと削減され、5ステップのワークフローを500回繰り返すケースで、連続エージェントでは約150ドルだったものが(強力なキャッシュ前提でも)1ワークフローあたり0.10ドル未満になります。
  • データ抽出、フォーム入力、フィンガープリンティングの各タスクで、ゼロショットのコンパイル成功率が80–94%であることを示し、JSONへの最小限のHuman-in-the-Loop(HITL)パッチにより実行信頼性をほぼ100%まで高められるとしています。
  • 5つのフロンティアモデルに対して1回のコンパイルあたりのコストは0.002〜0.092ドルで、連続型エージェントに比べて大規模かつ経済的なWeb自動化を可能にする「決定的コンパイル」というパラダイムを示唆しています。

Abstract

連続推論ループを通じて動作するLLM駆動のWebエージェント――すなわち、ブラウザの状態を評価するためにモデルへ繰り返し問い合わせ、行動を選択する――は、反復タスクに対して基本的なスケーラビリティの制約を示します。これを「Rerun Crisis(再実行の危機)」として特徴づけます。すなわち、実行頻度に対してトークン消費とAPIレイテンシが線形に増大することです。500回の反復にわたる5ステップのワークフローでは、連続エージェントは推論コストとしておよそ150.00 USDを要します。積極的なキャッシュを用いても、これは15.00 USD近辺にとどまります。私たちは、LLMによる推論とブラウザ実行を分離する「Compile-and-Execute(コンパイル&実行)」アーキテクチャを提案します。これにより、ワークフローごとの推論コストを0.10 USD未満まで削減します。ワンショットのLLM呼び出しが、DOM Sanitization Module(DSM)からトークン効率の高いセマンティック表現を処理し、決定論的なJSONのワークフローブループリントを出力します。その後、軽量なランタイムがモデルへの追加問い合わせなしにブラウザを駆動します。私たちは、このコスト削減をO(M x N)から、ならされる(amortized)O(1)の推論スケーリングへと形式化します。ここでMは再実行回数、Nは逐次アクションの数です。データ抽出、フォーム入力、フィンガープリンティングの各タスクに対する実証評価では、ゼロショットのコンパイル成功率が80-94%であることが示されます。重要なのは、中間表現としてのJSONのモジュール性により、Human-in-the-Loop(HITL)による最小限のパッチ適用で、実行信頼性をほぼ100%へ引き上げられる点です。5つのフロンティアモデルにおいて、1回のコンパイルあたりのコストが0.002 USDから0.092 USDの範囲にあることを踏まえると、これらの結果は、決定論的コンパイルが、連続アーキテクチャではこれまで不可能だった規模で、経済的に実行可能なオートメーションを可能にするパラダイムであることを示しています。