ワールド・アクション・モデルはVLAより一般化に優れているのか?頑健性に関するロバストネス研究

arXiv cs.RO / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ロボットの行動計画において、ビジョン・言語・行動(VLA)ポリシーとワールド・アクション・モデル(WAM)を比較し、WAMが未知の条件や摂動に対して一般化し、頑健性を保てるかに焦点を当てる。
  • WAMは、大規模な動画コーパスで学習したワールドモデルを元に、将来の状態を予測するように適応され、潜在表現をロボットの行動へ変換するために軽微な修正を加える、と説明される。
  • 実験では、最先端のVLAポリシーと、最近リリースされたWAMを、複数の視覚および言語の摂動を用いて、LIBERO-PlusおよびRoboTwin 2.0-Plusで評価する。
  • 結果から、WAMは高い頑健性を示すことが分かる。例えば、RoboTwin 2.0-PlusでLingBot-VAが74.2%の成功率、LIBERO-PlusでCosmos-Policyが82.2%の成功率を達成している。
  • 本研究では、VLAsは一部のタスクでは、広範で多様なロボットの学習を行うことでWAMの頑健性に匹敵しうるが、動画ベースのダイナミクスを部分的に取り込むハイブリッド手法はその中間に位置することが示される。これは、動画の事前知識を統合する方法が重要であることを示唆している。

要旨: 実世界におけるロボットの行動計画は、環境の現在の状態を理解するだけでなく、行動に応じて環境がどのように変化するかを予測することも必要となるため、難しい課題である。視覚言語行動(VLA)は、大規模な視覚言語モデルをアクション専門家(action experts)を用いてロボット行動生成へ転用することで、さまざまなロボットタスクにおいて顕著な成功を収めてきた。それにもかかわらず、その性能は学習データの範囲によって制約されており、未見の状況への汎化が限定的で、さらに多様な文脈上の攪乱(contextual perturbations)に対して脆弱である。より最近では、VLAの代替として世界モデル(world models)が再検討されている。世界行動モデル(world action models, WAMs)と呼ばれるこれらのモデルは、将来の状態を予測するために、大規模な動画データのコーパスで学習された世界モデルに基づいて構築される。わずかな適応を行うことで、その潜在表現(latent representation)をロボットの行動へデコードできる。WAMは、ウェブ規模の動画による事前学習(pretraining)で獲得した時空間の事前知識(spatiotemporal priors)と、明示的な動力学予測能力(explicit dynamic prediction capacity)が組み合わさることで、VLAよりもより効果的に汎化できるのではないかと示唆されている。本論文では、代表的な最先端のVLAポリシーと、最近リリースされたWAMを比較する研究を行う。これらの性能を、さまざまな視覚および言語の攪乱のもとで、LIBERO-PlusおよびRoboTwin 2.0-Plusのベンチマークにおいて評価する。我々の結果は、WAMが強い頑健性を達成することを示している。すなわち、LingBot-VAはRoboTwin 2.0-Plusで74.2%の成功率を達成し、Cosmos-PolicyはLIBERO-Plusで82.2%を達成した。一方で、pi_{0.5}のようなVLAは特定のタスクにおいて同等の頑健性を達成し得るものの、一般に、多様なロボットデータセットと多様な学習目的による大規模な学習を必要とする。動画に基づく動力学学習を部分的に取り込むハイブリッド手法は中間的な頑健性を示し、動画の事前知識がどのように統合されるかの重要性を浮き彫りにしている。