長期的視野を持つLLMエージェントを改善するためのサブゴール駆動フレームワーク

arXiv cs.AI / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、サブゴール分解を用いたリアルタイムのオンライン計画を可能にするサブゴール駆動フレームワークを提案し、ウェブナビゲーションのようなダイナミックな環境における長期的視野を持つLLMエージェントの性能を改善する。
MiRA（Milestoning your Reinforcement Learning Enhanced Agent）を提示する。MiRAは、長いタスク列の学習を導くために密度の高いマイルストーンベースの報酬を用いるRLトレーニングフレームワークである。
実証的な結果は顕著な向上を示し、GeminiはWebArena-Liteで成功率を約10ポイントの絶対増加、Gemma3-12B は 6.4% から 43.0% SR へと上昇し、GPT-4-Turbo や GPT-4o を含むいくつかの強力なベースラインを上回った。
この知見は、推論時の明示的な計画とマイルストーンベースの報酬を組み合わせることが、長期的な能力を著しく高めることを示唆しており、堅牢な自律システムの広い潜在能力を示唆している。

概要:
大規模言語モデル（LLM）ベースのエージェントは、モバイルインターフェース、オペレーティングシステム、ウェブブラウザを含むデジタル環境の強力な自律制御エージェントとして出現しています。
ウェブナビゲーションは、動的なコンテンツの扱いと長いアクションの連続性を要するため、特に難易度が高いです。
既存のLLMベースのエージェントは、長期的視野の計画において二つの主要な点で苦戦しています。
オンライン実行中、新しい情報が到着するとしばしば道筋を見失い、最終目標へ向かう明確で適応的な道筋を欠いています。
この問題は、強化学習（RL）ファインチューニング時にさらに悪化します。報酬がまばらで遅延するため、どの行動が成功につながるかをエージェントが特定することが難しく、長期にわたるタスクで一貫した推論を維持できなくなります。
この課題に対処するため、私たちは二つの貢献を提案します。
第一に、サブゴール分解を通じてオンライン計画を実行するために独自モデルを活用するエージェントフレームワークを導入します。
第二に、MiRA（Milestoning your Reinforcement Learning Enhanced Agent）を提示します。これは、密度の高いマイルストーンベースの報酬信号を用いるRLトレーニングフレームワークです。
リアルタイム計画メカニズムは、Gemini のような独自モデルの成功率を WebArena-Lite ベンチマークで約10%の絶対増加へと改善します。
一方、MiRAを公開されている Gemma3-12B モデルに適用すると、成功率が6.4%から43.0%へと増加します。
この性能は、GPT-4-Turbo（17.6%）やGPT-4o（13.9%）といった独自システム、さらには従来のオープンモデルの最先端である WebRL（38.4%）を上回ります。
総じて、明示的な推論時計画とマイルストーンベースの報酬を組み合わせることは、エージェントの長期的な能力を著しく向上させ、より堅牢で汎用的な自律システムへの道を開くことを示しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/23Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

長期的視野を持つLLMエージェントを改善するためのサブゴール駆動フレームワーク

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供