LLMベースのウェブエージェント向けAI計画フレームワーク

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はウェブベースのタスクを逐次的意思決定問題として形式化し、LLMエージェントのアーキテクチャを古典的な計画パラダイムに対応づける分類体系を提供する。
Step-by-Stepを用いた BFS、Best-First Tree Search を用いた Tree Search、そして Full-Plan-in-Advance を DFS に対応させることで、文脈のずれや一貫性のないタスク分解といった失敗を原理的に診断できるようにする。
軌跡の品質を評価するための新規評価指標を5つ提案し、WebArenaベンチマークからの794件の人手でラベル付けされた軌跡の新しいデータセットを導入する。
実証的な結果は、Step-by-Stepエージェントが人間の軌跡とより一致しており（全体的な成功率38%）、一方でFull-Plan-in-Advanceは要素の正確さなどの技術的指標で優れている（89%）ことを示し、アプリケーションの制約に基づいてアーキテクチャを選択する必要性を強調している。

概要：ウェブベースのタスクのための自律エージェントの開発は、AIの核心的な課題です。大規模言語モデル（LLM）エージェントは複雑なユーザーリクエストを解釈できますが、しばしばブラックボックスとして機能するため、なぜ失敗するのか、あるいはどのように計画を立てるのかを診断するのが困難です。この論文は、ウェブタスクを逐次的な意思決定プロセスとして形式的に扱うことで、このギャップに対処します。現代のエージェントアーキテクチャを伝統的な計画パラダイムに対応づける分類法を導入します。逐次型エージェントを幅優先探索（BFS）へ、ツリー探索エージェントをBest-First Tree Searchへ、事前に完全計画を立てるエージェントを深さ優先探索（DFS）へ。このフレームワークは、文脈のドリフトや一貫性のないタスク分解といったシステムの障害を原理的に診断することを可能にします。これらの挙動を評価するために、単純な成功率を超えて軌跡の品質を評価する5つの新規評価指標を提案します。この分析を、WebArenaベンチマークからの人間がラベル付けした794件の軌跡データセットで補強します。最後に、ベースラインの逐次型エージェントを、新規の全計画先行実装と比較することで、評価フレームワークを検証します。我々の結果は、逐次型エージェントが人間のゴールド軌跡により近く一致する一方で（全体の成功率38%）、全計画先行エージェントが要素の正確性（89%）などの技術指標で優れていることを示しています。これは、特定のアプリケーションの制約に基づいて適切なエージェントアーキテクチャを選択するために、提案した指標が必要であることを示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMベースのウェブエージェント向けAI計画フレームワーク

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer