VLA Foundry：視覚言語行動モデルを統合して学習するための統一フレームワーク

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

VLA Foundryは、LLM・VLM・VLA（視覚言語行動）モデルの学習を単一のコードベースで統合するオープンソースの学習フレームワークです。
従来のVLAのオープンソース実装が段階ごとに分断されがちだった点に対し、言語の事前学習からアクション専門家の微調整までをエンドツーエンドで統一する学習スタックを提供します。
このフレームワークは、学習を最初から行う場合と、Hugging Faceの事前学習済みバックボーンから始める場合の両方に対応しており、Qwen3-VLも利用できます。
著者らは、2種類のモデル（LLM→VLM→VLAパイプラインで最初から学習するもの、Qwen3-VLバックボーン版）を訓練・公開し、クローズドループ制御としてLBM Evalで評価して有用性を示しています。
主要な評価条件では、最初から学習したモデルが従来のクローズドソース成果に匹敵し、Qwen3-VLベースではマルチタスクの卓上操作性能がベースラインを大きく上回ることが示されています。

要旨: 私たちは、LLM、VLM、VLA の学習を単一のコードベースで統合するオープンソースのフレームワークである VLA Foundry を提示します。多くのオープンソースの VLA 取り組みは、しばしば相互に互換性のない事前学習パイプラインをつぎはぎしながら、主に行動（アクション）学習段階に特化しています。VLA Foundry は代わりに、言語の事前学習から行動エキスパートの微調整まで、エンドツーエンドの制御を備えた共通の学習スタックを提供します。VLA Foundry は、スクラッチからの学習と、Hugging Face からの事前学習バックボーンの両方をサポートします。私たちのフレームワークの有用性を示すために、2 種類のモデルを学習して公開します。1 つ目は、LLM-->VLM-->VLA のパイプラインを通じて完全にスクラッチから学習したもの、2 つ目は、事前学習済みの Qwen3-VL バックボーンを土台として構築したものです。両モデルのクローズドループ方策（ポリシー）性能を、公開データかつオープンソースのシミュレータである LBM Eval で評価します。また、公開利用を容易にするために、シミュレータと STEP 分析ツールへの使いやすさの改善にも貢献します。標準的な評価設定において、完全にオープンなスクラッチモデルは、私たちの先行するクローズドソースの作業と同等の性能です。さらに、Qwen3-VL バックボーンに置き換えることで、マルチタスクの卓上操作方策がベースラインを大きく上回る強力な結果を示します。VLA Foundry のコードベースは https://github.com/TRI-ML/vla_foundry で利用でき、すべてのマルチタスクモデルの重みは https://huggingface.co/collections/TRI-ML/vla_foundry で公開されています。追加の定性的（クオリティ重視の）動画は、プロジェクトウェブサイト https://tri-ml.github.io/vla_foundry で利用可能です。