LLMベースのウェブエージェントはなぜ失敗するのか?階層的計画の視点

arXiv cs.AI / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、LLMベースのウェブエージェントのための階層的計画フレームワークを提案し、分析を高レベルの計画、低レベルの実行、および再計画に分離して失敗を診断する。
  • 構造化された Planning Domain Definition Language (PDDL) の計画を用いると、自然言語の計画よりもより簡潔で目的指向の戦略が得られることを示している。
  • 本研究は、低レベルの実行が支配的なボトルネックであることを明らかにしており、高レベルの推論に加えて知覚的グラウンディングと適応的制御を改善する必要性を強調している。
  • このフレームワークは、LLMウェブエージェントの診断と高度化のための原理的基盤を提供し、将来の研究が改善の焦点をどこに置くべきかの指針となる。

要約:大型言語モデル(LLM)を用いたウェブエージェントはウェブナビゲーションに対して、ますます広く利用されるようになっているが、現実的で長期的なタスクにおいては人間の信頼性にはまだ遠く及ばない。既存の評価は主にエンドツーエンドの成功に焦点を当てており、どこで失敗が生じるのかを知る手掛かりは限られている。私たちは、ウェブエージェントを三つの層(すなわち高レベルの計画、低レベルの実行、再計画)にわたって分析する階層的計画フレームワークを提案し、推論、グラウンディング、回復のプロセスベースの評価を可能にする。実験結果は、構造化された Planning Domain Definition Language(PDDL)を用いた計画が、自然言語(NL)の計画よりも簡潔で目標指向の戦略を生み出すことを示す一方、低レベルの実行が依然として支配的なボトルネックである。これらの結果は、知覚的グラウンディングと適応的制御の改善が、人間レベルの信頼性を達成するために重要であることを示している。階層的な視点は、LLMウェブエージェントを診断・改善するための原理的な基盤を提供する。