StarVLA:Vision-Language-Actionモデル開発のためのレゴのようなコードベース

arXiv cs.RO / 2026/4/8

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • StarVLAは、Vision-Language-Action(VLA)モデル研究をよりモジュール化し、部品の差し替えを容易にし、再現性を高めることを目的としたオープンソースの「レゴのような」コードベースとして提示される。
  • これは、視覚言語モデル(例:Qwen-VL)とワールドモデル(例:Cosmos)という両方のバックボーンをサポートする、モジュール化されたバックボーン/アクションヘッド構成を導入しており、構成要素を独立に入れ替え可能である。
  • フレームワークには、サポートされるVLAの各パラダイムに対して一貫して適用できる、クロスボディメント学習やマルチモーダル共同学習などの再利用可能な学習戦略が含まれる。
  • StarVLAは、主要なVLAベンチマーク(LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K)を、シミュレーションと実ロボットへのデプロイの両方をカバーする単一の評価インターフェースによって統一する。
  • 著者らは、提供される単一ベンチマークの学習レシピが完全に再現可能であり、両方のバックボーン型において複数のベンチマークで先行手法に匹敵、またはそれを上回る性能を達成できると主張している。

要旨: 一般化された身体性を備えるエージェントを構築するには、知覚、言語理解、行動を統合する必要があり、これは、近年のビジョン・ランゲージ・モデルやワールドモデルの進展を含むマルチモーダル基盤モデルに基づく Vision-Language-Action(VLA)アプローチによって対処される中核的能力です。急速な進歩にもかかわらず、VLA手法は、互換性のないアーキテクチャ、コードベース、評価プロトコルにまたがって分断された状態に留まっており、原理に基づく比較や再現性が妨げられています。私たちは、VLA研究のためのオープンソースコードベースである StarVLA を提示します。StarVLA は、この課題に対して 3 つの観点から取り組みます。第一に、モジュール化されたバックボーン―アクションヘッドのアーキテクチャを提供し、VLMバックボーン(例: Qwen-VL)とワールドモデルバックボーン(例: Cosmos)の両方を、代表的なアクション復号パラダイムとともにサポートします。さらに、バックボーンとアクションヘッドをそれぞれ独立に差し替え可能にする共通の抽象化のもとで統合されています。第二に、クロス・ボディエンボディメント学習やマルチモーダル共同学習を含む、再利用可能な学習戦略を提供し、サポートされる各パラダイムに対して一貫して適用できるようにします。第三に、LIBERO、SimplerEnv、RoboTwin~2.0、RoboCasa-GR1、BEHAVIOR-1K の主要ベンチマークを統合し、シミュレーションと実ロボットへのデプロイの両方をサポートする統一された評価インターフェースを通じて利用可能にします。StarVLA には、最小限のデータエンジニアリングにもかかわらず、VLMバックボーンおよびワールドモデルバックボーンの双方において、複数のベンチマークで既存手法を同等以上の性能で上回る、シンプルで完全に再現可能な単一ベンチマーク学習レシピも付属しています。私たちの知る限り、StarVLA は利用可能な中でも最も包括的なオープンソースVLAフレームワークの一つであり、既存手法の再現や新しい手法のプロトタイピングのハードルを下げることを期待しています。StarVLA は積極的にメンテナンスされ拡張されています。プロジェクトの進展に応じて、本レポートを更新します。コードとドキュメントは https://github.com/starVLA/starVLA で公開されています。