概念ゲート付き視覚蒸留による Vision-Language-Action モデルの視覚的乱雑さを克服する

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CGVDはトレーニング不要でモデルアグノスティックな推論フレームワークで、乱雑な環境で視覚言語行動ポリシーを安定化させます。
指示を安全セットと惑乱要素セットに分割し、二層のターゲット改良（クロスバリデーションと空間的判別）を用いて偽陽性を罰します。
フーリエベースのインペインティングを使用して、意味的な惑乱要素を抑制しつつ、空間的ジオメトリと体性感覚を保持するクリーンな観測を生成します。
実験結果は、密集した乱雑さのあるタスクでの成功率を大幅に向上させ、崩壊を防ぎます（77.5%対43.0%）。
本研究は、推論時の視覚蒸留が乱雑さの中での堅牢なロボット操作の重要な前提条件であると主張します。

本文: arXiv:2603.10340v1 公表タイプ: new 要旨: Vision-Language-Action（VLA）モデルは卓越したゼロショット一般化を示す一方で、乱雑な環境ではしばしば「精度と推論のギャップ」と呼ばれる現象に悩まされます。この問題は、背景による特徴の希薄化によって、高頻度の意味的ノイズが正確な操作に必要な幾何学的基盤を崩すことに起因します。このギャップを埋めるために、Concept-Gated Visual Distillation（CGVD）を提案します。これはトレーニングを必要としない、モデルアグノスティックな推論フレームワークで、VLAポリシーを安定化させます。CGVDは指示を安全セットと惑乱要素セットに分解し、クロスバリデーションと空間的判別を組み合わせた二層のターゲット改良プロセスを用いて偽陽性を明示的に罰し、真の操作ターゲットを分離します。次に、フーリエベースのインペインティングを用いて場面を処理し、意味的な惑乱要素を活発に抑制しつつ、重要な空間ジオメトリと視覚的体性感覚を保持するクリーンな観測を生成します。高度に乱雑な操作タスクでの広範な評価は、CGVDが性能崩壊を防ぐことを示しています。意味的惑乱要素が密集した環境では、我々の手法は最先端のベースラインを著しく上回り、ベースラインの43.0%に対して77.5%の成功率を達成します。属性の厳格な遵守を課すことにより、CGVDは推論時の視覚蒸留を、乱雑環境での堅牢なロボット操作の重要な前提条件として確立します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

概念ゲート付き視覚蒸留による Vision-Language-Action モデルの視覚的乱雑さを克服する

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer