OmniVLA-RL:空間理解とオンライン強化学習を備えたビジョン・ランゲージ・アクションモデル

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、空間認識の不確かさ、マルチモーダル融合の最適性不足、強化学習の不安定さといった既知の課題を踏まえ、身体性AIの性能向上を目的とした新しいVLAモデル「OmniVLA-RL」を提案する。
  • Mix-of-Transformers(MoT)アーキテクチャを用い、「推論」「空間」「行動」の各エキスパートを統合して、行動選択のためのマルチモーダル情報の結び付けを改善する。
  • 行動の精度と学習の頑健性を高めるために、Flow-GSPOを提案し、flow matchingをSDE(確率微分方程式)プロセスとして再定式化した上で、Group Segmented Policy Optimization(GSPO)と組み合わせる。
  • LIBEROおよびLIBERO-Plusベンチマークでの評価では、OmniVLA-RLが既存の最先端手法を大きく上回り、既存VLAモデルの根本的な制約を実質的に克服できていることを示す。
  • 全体として、本研究は空間理解の改善とより安定したオンライン強化学習を結び付けることで、VLAシステムの設計と学習プロセスを前進させる。

要旨: 視覚言語行動(VLA)モデルは身体化されたAIにおけるパラダイムシフトを体現している一方で、既存の枠組みはしばしば、空間認識の不正確さ、マルチモーダル融合の最適でない点、強化学習における不安定性に苦戦しています。これらのギャップを埋めるために、推論、空間、行動の専門家を相乗的に統合するMix-of-Transformers(MoT)設計を活用した新しいアーキテクチャであるOmniVLA-RLを提案します。さらに、フローマッチングを確率微分方程式(SDE)プロセスとして再定式化し、行動の精度と学習の頑健性を高めるためにGroup Segmented Policy Optimization(GSPO)と統合するFlow-GSPOも導入します。LIBEROおよびLIBERO-Plusのベンチマークに対する広範な評価により、OmniVLA-RLが最先端手法を大幅に上回り、現在のVLAモデルが抱える根本的な制約を効果的に克服することが示されます。