要旨: Vision-Language-Action(VLA)モデルはロボット制御において強い汎化能力を示しますが、強化学習(RL)で微調整するには、現実世界での相互作用に伴う高コストと安全上のリスクという制約があります。インタラクティブなワールドモデルでVLAモデルを学習することでこれらの問題を回避できますが、ピクセルレベルでのワールドモデリング、多視点の整合性、疎な報酬下での誤差の累積といった複数の課題が新たに生じます。大規模マルチモーダルモデルとモデルベースRLにまたがる最近の進展を踏まえ、これらの問題に対処するための実用的な枠組みであるVLA-MBPOを提案します。提案手法には3つの主要な設計上の選択があります。(i)データ効率の高いワールドモデリングのために、統一型マルチモーダルモデル(UMM)を適応させること。(ii)多視点の整合性を強制するための、インタリーブされたビュー復号メカニズム。(iii)誤差の累積を抑えるための、チャンク単位の分岐ロールアウト。理論解析と、シミュレーションおよび実世界のタスクにまたがる実験により、VLA-MBPOは方策の性能とサンプル効率を大きく改善することが示され、実環境のロボット配備に向けた頑健性と拡張性が裏付けられます。
ビジョン・ランゲージ・アクション(VLA)モデルのための、実用的なワールドモデルに基づく強化学習に向けて
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習による微調整でビジョン・ランゲージ・アクション(VLA)ロボットモデルを扱う際の主要な制約、すなわち現実世界での相互作用はコストが高く危険であるため、RL学習を大規模化しにくい点に取り組む。
- 対して著者らは、直接的に現実世界の経験に基づいて学習するのではなく、対話的なワールドモデルを用いてVLA方策を学習する実用的なモデルベース強化学習フレームワーク「VLA-MBPO」を提案する。
- 著者らは、VLAにおけるワールドモデリングの重要課題――ピクセルレベル予測、多視点の整合性、そして疎な報酬によって引き起こされる誤差の累積(compounding errors)――に対し、3つの設計上の工夫により解決を図る。すなわち、データ効率の高いワールドモデリングのために適応した統一型マルチモーダルモデル、整合性のための視点デコーディングのインタリーブ、そして誤差の蓄積を抑えるチャンク単位の分岐ロールアウトである。
- シミュレーションおよび実世界の両タスクにまたがる実験により、提案手法が報告するところでは方策性能の向上とサンプル効率の改善が見られ、現実のロボット運用に向けた頑健性とスケーラビリティが示される。
