要約: 最近のマルチモーダルエージェントの進歩は、コンピュータ利用時の相互作用とツール使用を改善しましたが、既存のほとんどのシステムは依然としてリアクティブであり、将来の状態や長期的な目標を考慮せずに行動を孤立して最適化しています。これにより計画の一貫性が制限され、エージェントが高レベルの多段階タスクを信頼性高く解決することを妨げます。我々はTraceR1を提案します。実行前に短期的な軌道を予測することにより、先読みの推論を明示的に訓練する2段階の強化学習フレームワークです。第一段階は、予測された行動列全体のグローバルな一貫性を確保する報酬を伴う軌跡レベルの強化学習を行います。第二段階は、凍結されたツールエージェントからの実行フィードバックを用いて、ステップレベルの正確性と実行可能性を洗練させる、現実的な強化ファインチューニングを適用します。TraceR1はオンラインのコンピュータ利用、オフラインのコンピュータ利用ベンチマーク、およびマルチモーダルツール使用推論タスクを網羅する7つのベンチマークで評価され、計画の安定性、実行の堅牢性、および反応型および単一段階のベースラインに対する一般化の点で顕著な改善を達成します。これらの結果は、先読みの軌跡推論が、複雑な現実世界の環境で推論・計画・行動を効果的に行えるマルチモーダルエージェントを構築するための重要な原則であることを示しています。
マルチモーダルAIエージェントの予見的計画
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は TraceR1 を提案する。これは、マルチモーダルエージェントが実行前に短期の軌跡を予測することで先読み的推論を可能にする、二段階の強化学習フレームワークである。
- 第1段階では、軌跡レベルの強化学習が、予測される一連の行動全体のグローバルな一貫性を保証する報酬を用い、第2段階では凍結済みのツールエージェントからのフィードバックを用いたグラウンデッドな強化学習ファインチューニングを適用して、ステップレベルの精度と実行可能性を向上させる。
- 本手法は、オンラインおよびオフラインのコンピュータ利用とマルチモーダルツール利用タスクを網羅する7つのベンチマークで評価され、計画の安定性、実行の堅牢性、およびリアクティブなベースラインに対する一般化の改善を示した。
- 結果は、予見的軌道推論が、複雑な実世界環境で効果的に推論、計画、行動できるマルチモーダルエージェントを構築するための重要な原理であることを示唆している。

