概要:
大規模言語モデル(LLM)ベースのエージェントは、モバイルインターフェース、オペレーティングシステム、ウェブブラウザを含むデジタル環境の強力な自律制御エージェントとして出現しています。
ウェブナビゲーションは、動的なコンテンツの扱いと長いアクションの連続性を要するため、特に難易度が高いです。
既存のLLMベースのエージェントは、長期的視野の計画において二つの主要な点で苦戦しています。
オンライン実行中、新しい情報が到着するとしばしば道筋を見失い、最終目標へ向かう明確で適応的な道筋を欠いています。
この問題は、強化学習(RL)ファインチューニング時にさらに悪化します。報酬がまばらで遅延するため、どの行動が成功につながるかをエージェントが特定することが難しく、長期にわたるタスクで一貫した推論を維持できなくなります。
この課題に対処するため、私たちは二つの貢献を提案します。
第一に、サブゴール分解を通じてオンライン計画を実行するために独自モデルを活用するエージェントフレームワークを導入します。
第二に、MiRA(Milestoning your Reinforcement Learning Enhanced Agent)を提示します。これは、密度の高いマイルストーンベースの報酬信号を用いるRLトレーニングフレームワークです。
リアルタイム計画メカニズムは、Gemini のような独自モデルの成功率を WebArena-Lite ベンチマークで約10%の絶対増加へと改善します。
一方、MiRAを公開されている Gemma3-12B モデルに適用すると、成功率が6.4%から43.0%へと増加します。
この性能は、GPT-4-Turbo(17.6%)やGPT-4o(13.9%)といった独自システム、さらには従来のオープンモデルの最先端である WebRL(38.4%)を上回ります。
総じて、明示的な推論時計画とマイルストーンベースの報酬を組み合わせることは、エージェントの長期的な能力を著しく向上させ、より堅牢で汎用的な自律システムへの道を開くことを示しています。
長期的視野を持つLLMエージェントを改善するためのサブゴール駆動フレームワーク
arXiv cs.AI / 2026/3/23
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、サブゴール分解を用いたリアルタイムのオンライン計画を可能にするサブゴール駆動フレームワークを提案し、ウェブナビゲーションのようなダイナミックな環境における長期的視野を持つLLMエージェントの性能を改善する。
- MiRA(Milestoning your Reinforcement Learning Enhanced Agent)を提示する。MiRAは、長いタスク列の学習を導くために密度の高いマイルストーンベースの報酬を用いるRLトレーニングフレームワークである。
- 実証的な結果は顕著な向上を示し、GeminiはWebArena-Liteで成功率を約10ポイントの絶対増加、Gemma3-12B は 6.4% から 43.0% SR へと上昇し、GPT-4-Turbo や GPT-4o を含むいくつかの強力なベースラインを上回った。
- この知見は、推論時の明示的な計画とマイルストーンベースの報酬を組み合わせることが、長期的な能力を著しく高めることを示唆しており、堅牢な自律システムの広い潜在能力を示唆している。