概要: モデル予測制御(MPC)では、ワールドモデルがさまざまな行動提案の将来の結果を予測し、その予測結果をスコアリングして最適な行動の選択を導きます。視覚運動MPC(visuomotor MPC)では、スコア関数は、DINOやJEPAのような事前学習済みの視覚エンコーダの潜在空間において、予測された画像と目標画像の距離を計測した距離指標です。しかし、特に新しい環境では、タスク実行の前に目標画像を事前に取得することが困難です。さらに、画像によって目標を伝える方法は、自然言語と比べて限定的なインタラクティビティしか提供しません。本研究では、視覚と言語が整合した潜在空間において、Grounded World Model(GWM)を学習することを提案します。その結果、各行動提案は、その将来の結果がタスク指示にどれだけ近いかに基づいて評価されます。この近さは、埋め込み(embedding)の類似度によって反映されます。このアプローチにより、視覚運動MPCは、意味的な汎化においてVLMベースのVLAを上回るVLAへと変換されます。提案するWISERベンチマークでは、GWM-MPCは、未見の視覚信号と参照表現(referring expressions)を特徴とし、かつ学習時にデモ示された運動によって解ける288タスクからなるテストセットにおいて、87%の成功率を達成します。これに対し、従来のVLAは、学習セットに対して成功率90%で過学習しているにもかかわらず、平均成功率は22%にとどまります。
意味的に汎化可能な計画のためのグラウンデッド・ワールドモデル
arXiv cs.RO / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビジョンのみの埋め込み空間における目標画像の距離に依存するのではなく、視覚と言語が整合した潜在空間上で将来の結果を予測するモデル予測制御(Model Predictive Control)向けのグラウンデッド・ワールドモデル(GWM)を提案する。
- このGWM-MPCフレームワークでは、候補となる行動系列は、予測された将来の埋め込みとタスク指示(instruction)の埋め込みとの類似度によってスコア付けされる。これにより、自然言語による目標指定が、新しい環境においても可能になる。
- 本手法は、事前学習済みVLM(Vision-Language Model)から得られる視覚—言語の整合に依存する既存のビジョン言語アクションモデルと比較して、意味的な汎化性能の向上を目的として設計されている。
- WISERベンチマーク(未知の視覚信号と照応表現のある288のテストタスク)において、GWM-MPCは成功率87%を報告しており、学習セットへの過学習が強い従来のVLA(Vision-Language Action)アプローチの22%に対して大きく上回っている。
- これらの結果は、言語整合された潜在空間においてワールドモデル計画をグラウンディングすることで、過学習を大幅に抑え、指示駆動型のタスク性能を改善できることを示すと主張されている。




