要旨: 視覚言語行動(VLA)モデルは通常、大規模な実世界の動画に依存します。一方で、収集するコストが低く高度に並列化可能なシミュレーションデータは、しばしば実質的な視覚ドメインギャップと環境多様性の不足に悩まされ、その結果として実世界での汎化性能が弱くなります。私たちは、タスクのセマンティクスと行動の軌道を保持しつつ、シミュレーションされたVLA動画を現実的な学習動画へ変換する、効率的な動画拡張フレームワークを提案します。提案手法のパイプラインでは、動画の意味論的セグメンテーションと動画キャプション生成を通じて、シミュレーションから構造化された条件を抽出し、キャプションを書き換えて環境を多様化させ、条件付き動画転送モデルを用いて現実的な動画を合成します。拡張を大規模かつ実用的にするために、生成を加速する拡散特徴再利用メカニズムを導入します。これは、隣接するタイムステップ間で動画トークンを再利用して生成を高速化するものです。また、計算が限られた状況下で拡張に用いるための、コンパクトで冗長でない部分集合を特定するコアセット抽出戦略も提案します。Robotwin 2.0、LIBERO、LIBERO-Plus、および実際のロボットプラットフォームでの大規模な実験により、一貫した改善が示されます。例えば、本手法はRobotwin 2.0においてRDT-1Bを8%改善し、より難しいLIBERO-Plusベンチマークではπ_0を5.1%向上させます。コードは以下で公開されています: https://github.com/nanfangxiansheng/Seeing-Realism-from-Simulation.
シミュレーションから現実の説得力を引き出す:VLAデータ拡張のための効率的な動画転送
arXiv cs.RO / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 画像・言語・行動(VLA)モデルは、シミュレーションデータが現実世界の動画に比べて視覚的なドメインギャップや環境多様性の不足を抱えやすく、その結果として実環境への汎化が弱くなりがちです。
- 提案手法は、動画のセマンティックセグメンテーションと動画キャプション生成によりシミュレーションから構造化された条件を抽出し、さらにキャプションを書き換えて環境多様性を高めることで、シミュレーションから現実への転移を改善します。
- 条件付き動画転送モデルが、タスクの意味論や行動軌跡を保ったまま、より現実的な学習用動画を合成します。
- 拡張を現実的な計算コストでスケールさせるために、隣接するタイムステップで拡散特徴を再利用して生成を高速化し、計算が限られた状況でも重複の少ない小さなサブセットを選ぶコアセット抽出戦略を導入しています。
- Robotwin 2.0、LIBERO、LIBERO-Plus、実ロボット基盤での実験では一貫した改善が示され、例えばRobotwin 2.0でRDT-1Bが8%向上し、より難しいLIBERO-Plusでは\u03c00が5.1%押し上げられています。




