AI Navigate

PVI: Vision-Language-Actionモデルへのプラグイン型視覚情報注入

arXiv cs.CV / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

要点

  • PVIは軽量でエンコーダに依存しないプラグインモジュールで、事前訓練済みの Vision-Language-Action ポリシーに結合し、ゼロ初期化された残差経路を介して補助的な視覚表現を注入する。これにより、事前訓練済みの挙動を保持したまま、単一段階のファインチューニングだけで済む。
  • 本研究は、時系列の動画特徴量(V-JEPA2)が静的な画像特徴量(DINOv2)を上回ることを示しており、状態追跡と協調が求められる複数フェーズのタスクで最大の向上を示している。
  • PVIは基礎ポリシーに対して一貫した改善を実現し、さまざまな注入戦略においても効果を発揮することから、他の代替アプローチと比較して有効であることを示している。
  • 長期的な両手布折りタスクに関する実機ロボット実験は、PVIの実用性がシミュレーションを超えることを検証し、現実世界のロボティクス応用への可能性を示している。

要約:
VLAアーキテクチャは、事前学習済みのVLMとフロー整合型のアクションエキスパートを組み合わせることで、言語条件付き操作の強力なパラダイムとして現れてきました。しかし、意味的抽象化を最適化され、通常は静的な視覚観測に条件付けられるVLMは、細かな幾何学的手掛かりを弱めてしまう傾向があり、多くの場合、アクションエキスパートに対する明示的な時間情報を欠いています。先行研究は補助的な視覚特徴を注入することでこれを緩和しますが、既存のアプローチは静的な空間表現に焦点を当てるものか、時間入力を取り込むには大幅なアーキテクチャ変更を要するものが多く、時間情報は十分に探求されていません。私たちはPlug-in Visual Injection(PVI)を提案します。これは軽量でエンコーダに依存しないモジュールで、事前学習済みのアクションエキスパートに接続し、ゼロ初期化された残差経路を介して補助的な視覚表現を注入します。これにより、事前学習済みの挙動を保持しつつ、単一段階のファインチューニングのみで済みます。PVIを用いると、基礎ポリシーに対して一貫した利得を得られ、競合する代替注入戦略の範囲にわたって有利です。統制された研究では、時間的ビデオ特徴(V-JEPA2)が強力な静的画像特徴(DINOv2)を上回り、状態追跡と協調を要する複数段階タスクで最大の利得を示します。長期的な両手操作での布の折り畳みの実機実験は、シミュレーションを超えたPVIの実用性をさらに示しています。