要旨: デュアルシステムのビジョン・言語・アクション(VLA)モデルは、最先端のロボット操作を実現しますが、VLMバックボーンによってボトルネックになります。VLMバックボーンは、時間的に冗長な特徴を生成しつつ、制御ステップのたびに実行する必要があるためです。私たちは、Latent Bridge(潜在ブリッジ)を提案します。これは軽量なモデルであり、各タイムステップ間でのVLM出力の差分(デルタ)を予測します。これにより、アクションヘッドは予測された出力に基づいて動作でき、コストの高いVLMバックボーンは周期的に呼び出すだけで済むようになります。私たちは、構造的に異なる2つのVLAに対してLatent Bridgeを実装します。GR00T-N1.6(特徴空間ブリッジ)および {\pi}0.5(KVキャッシュブリッジ)であり、このアプローチがVLA設計をまたいで一般化できることを示します。タスクに依存しないDAgger訓練パイプラインは、変更なしでベンチマーク間に転移します。4つのLIBEROスイート、24のRoboCasaキッチンタスク、およびALOHAのシミュレーションからの転移キューブ課題において、Latent Bridgeは95-100%の性能保持を達成しつつ、VLM呼び出しを50-75%削減します。その結果、エピソードあたりのネットの速度向上は1.65-1.73倍になります。
Latent Bridge:効率的なデュアルシステムVLM-VLA推論のためのフィーチャー・デルタ予測
arXiv cs.RO / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Latent Bridgeは、デュアルシステムのVision-Language-Action(VLA)ロボティクスモデルにおけるボトルネックを、制御ステップ間でのVision-Language Model(VLM)バックボーンの冗長計算を減らすことで解決しようとします。
- 軽量モデルで時刻tからt+1のVLM出力のデルタを予測し、その予測出力をアクションヘッドが利用することで、高コストなVLMバックボーンの呼び出しを周期的にする仕組みです。
- この手法は、GR00T-N1.6(フィーチャースペース・ブリッジ)とπ0.5(KVキャッシュ・ブリッジ)の2つの異なるVLA実装に適用され、アーキテクチャをまたいで一般化できることを示しています。
- タスク非依存のDAgger学習パイプラインにより、複数のベンチマークで性能保持率95〜100%を維持しつつ、VLM呼び出しを50〜75%削減し、エピソードあたりの純粋な速度を約1.65〜1.73倍に向上させます。
