概念ゲート付き視覚蒸留による Vision-Language-Action モデルの視覚的乱雑さを克服する
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CGVDはトレーニング不要でモデルアグノスティックな推論フレームワークで、乱雑な環境で視覚言語行動ポリシーを安定化させます。
- 指示を安全セットと惑乱要素セットに分割し、二層のターゲット改良(クロスバリデーションと空間的判別)を用いて偽陽性を罰します。
- フーリエベースのインペインティングを使用して、意味的な惑乱要素を抑制しつつ、空間的ジオメトリと体性感覚を保持するクリーンな観測を生成します。
- 実験結果は、密集した乱雑さのあるタスクでの成功率を大幅に向上させ、崩壊を防ぎます(77.5%対43.0%)。
- 本研究は、推論時の視覚蒸留が乱雑さの中での堅牢なロボット操作の重要な前提条件であると主張します。
本文: arXiv:2603.10340v1 公表タイプ: new
要旨: Vision-Language-Action(VLA)モデルは卓越したゼロショット一般化を示す一方で、乱雑な環境ではしばしば「精度と推論のギャップ」と呼ばれる現象に悩まされます。この問題は、背景による特徴の希薄化によって、高頻度の意味的ノイズが正確な操作に必要な幾何学的基盤を崩すことに起因します。このギャップを埋めるために、Concept-Gated Visual Distillation(CGVD)を提案します。これはトレーニングを必要としない、モデルアグノスティックな推論フレームワークで、VLAポリシーを安定化させます。CGVDは指示を安全セットと惑乱要素セットに分解し、クロスバリデーションと空間的判別を組み合わせた二層のターゲット改良プロセスを用いて偽陽性を明示的に罰し、真の操作ターゲットを分離します。次に、フーリエベースのインペインティングを用いて場面を処理し、意味的な惑乱要素を活発に抑制しつつ、重要な空間ジオメトリと視覚的体性感覚を保持するクリーンな観測を生成します。高度に乱雑な操作タスクでの広範な評価は、CGVDが性能崩壊を防ぐことを示しています。意味的惑乱要素が密集した環境では、我々の手法は最先端のベースラインを著しく上回り、ベースラインの43.0%に対して77.5%の成功率を達成します。属性の厳格な遵守を課すことにより、CGVDは推論時の視覚蒸留を、乱雑環境での堅牢なロボット操作の重要な前提条件として確立します。