LLMベースのウェブエージェント向けAI計画フレームワーク

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はウェブベースのタスクを逐次的意思決定問題として形式化し、LLMエージェントのアーキテクチャを古典的な計画パラダイムに対応づける分類体系を提供する。
  • Step-by-Stepを用いた BFS、Best-First Tree Search を用いた Tree Search、そして Full-Plan-in-Advance を DFS に対応させることで、文脈のずれや一貫性のないタスク分解といった失敗を原理的に診断できるようにする。
  • 軌跡の品質を評価するための新規評価指標を5つ提案し、WebArenaベンチマークからの794件の人手でラベル付けされた軌跡の新しいデータセットを導入する。
  • 実証的な結果は、Step-by-Stepエージェントが人間の軌跡とより一致しており(全体的な成功率38%)、一方でFull-Plan-in-Advanceは要素の正確さなどの技術的指標で優れている(89%)ことを示し、アプリケーションの制約に基づいてアーキテクチャを選択する必要性を強調している。

概要:ウェブベースのタスクのための自律エージェントの開発は、AIの核心的な課題です。大規模言語モデル(LLM)エージェントは複雑なユーザーリクエストを解釈できますが、しばしばブラックボックスとして機能するため、なぜ失敗するのか、あるいはどのように計画を立てるのかを診断するのが困難です。この論文は、ウェブタスクを逐次的な意思決定プロセスとして形式的に扱うことで、このギャップに対処します。現代のエージェントアーキテクチャを伝統的な計画パラダイムに対応づける分類法を導入します。逐次型エージェントを幅優先探索(BFS)へ、ツリー探索エージェントをBest-First Tree Searchへ、事前に完全計画を立てるエージェントを深さ優先探索(DFS)へ。このフレームワークは、文脈のドリフトや一貫性のないタスク分解といったシステムの障害を原理的に診断することを可能にします。これらの挙動を評価するために、単純な成功率を超えて軌跡の品質を評価する5つの新規評価指標を提案します。この分析を、WebArenaベンチマークからの人間がラベル付けした794件の軌跡データセットで補強します。最後に、ベースラインの逐次型エージェントを、新規の全計画先行実装と比較することで、評価フレームワークを検証します。我々の結果は、逐次型エージェントが人間のゴールド軌跡により近く一致する一方で(全体の成功率38%)、全計画先行エージェントが要素の正確性(89%)などの技術指標で優れていることを示しています。これは、特定のアプリケーションの制約に基づいて適切なエージェントアーキテクチャを選択するために、提案した指標が必要であることを示しています。