LLMベースのウェブエージェントはなぜ失敗するのか？階層的計画の視点

arXiv cs.AI / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、LLMベースのウェブエージェントのための階層的計画フレームワークを提案し、分析を高レベルの計画、低レベルの実行、および再計画に分離して失敗を診断する。
構造化された Planning Domain Definition Language (PDDL) の計画を用いると、自然言語の計画よりもより簡潔で目的指向の戦略が得られることを示している。
本研究は、低レベルの実行が支配的なボトルネックであることを明らかにしており、高レベルの推論に加えて知覚的グラウンディングと適応的制御を改善する必要性を強調している。
このフレームワークは、LLMウェブエージェントの診断と高度化のための原理的基盤を提供し、将来の研究が改善の焦点をどこに置くべきかの指針となる。

要約：大型言語モデル（LLM）を用いたウェブエージェントはウェブナビゲーションに対して、ますます広く利用されるようになっているが、現実的で長期的なタスクにおいては人間の信頼性にはまだ遠く及ばない。既存の評価は主にエンドツーエンドの成功に焦点を当てており、どこで失敗が生じるのかを知る手掛かりは限られている。私たちは、ウェブエージェントを三つの層（すなわち高レベルの計画、低レベルの実行、再計画）にわたって分析する階層的計画フレームワークを提案し、推論、グラウンディング、回復のプロセスベースの評価を可能にする。実験結果は、構造化された Planning Domain Definition Language（PDDL）を用いた計画が、自然言語（NL）の計画よりも簡潔で目標指向の戦略を生み出すことを示す一方、低レベルの実行が依然として支配的なボトルネックである。これらの結果は、知覚的グラウンディングと適応的制御の改善が、人間レベルの信頼性を達成するために重要であることを示している。階層的な視点は、LLMウェブエージェントを診断・改善するための原理的な基盤を提供する。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMベースのウェブエージェントはなぜ失敗するのか？階層的計画の視点

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer