概要: 視覚言語アクション(Vision language action, VLA)モデルは汎用のロボットエージェントを可能にしますが、多くの場合言語を無視する挙動が見られ、視覚的な近道に依存し、指示が変わっても鈍感です。そこで本研究では、Prospective Grounding and Alignment VLA(ProGAL-VLA)を提示します。これは、3Dの対象中心グラフ(GSM)を構築し、遅いプランナーによって記号的なサブ目標を生成し、それらをGrounding Alignment Contrastive(GAC)損失により実際に根拠づけられた対象(エンティティ)と整合させます。すべての行動は検証済みの目標埋め込み g_t を条件としており、その注意エントロピーは固有の曖昧性(ambiguity)信号を与えます。LIBERO-Plusにおいて、ProGAL-VLAはロボットへの擾乱に対する頑健性を30.3から71.5パーセントへと向上させ、言語無視を3倍〜4倍低減し、エンティティの検索を0.41から0.71 Recall@1へと改善します。Custom Ambiguity Benchmarkでは、AUROC 0.81(0.52に対して)、AUPR 0.79を達成し、曖昧な入力に対する明確化(clarification)を0.09から0.81へと引き上げます。さらに、曖昧でない場合の成功を損なうことはありません。検証のボトルネックは言語-行動の相互情報量を増大させ、GAC損失は対象レベルのInfoNCEの上界を課し、注意エントロピーは較正された選択的予測をもたらします。これらは、明示的な検証済みのグラウンディングが、指示に敏感で曖昧性を意識したエージェントへの有効な道筋であることを示しています。
ProGAL-VLA:視覚言語行動モデルにおける事前推論によるグラウンディング(根拠付け)アラインメント
arXiv cs.RO / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ProGAL-VLAは、指示の変化に応じて行動が敏感になるようにすることで、汎用ロボットエージェントの「言語無理解(language ignorance)」を解決するための視覚言語行動(VLA)アプローチである。
- この手法では、3Dのエンティティ中心グラフを構築し、遅い(slow)プランナで象徴的なサブ目標を生成し、Grounding Alignment Contrastive(GAC)損失を用いてサブ目標をグラウンディングされた対象(エンティティ)に整合させる。
- 行動は検証済みのゴール埋め込みに基づいて条件付けされ、注意エントロピーを固有の曖昧性シグナルとして用いることで、曖昧性を踏まえた振る舞いを支援しつつ、非曖昧なタスクでの性能低下を抑える。
- LIBERO-Plusでの報告結果では、ロボットの外乱に対する頑健性が大幅に向上(30.3→71.5%)、言語無理解が3〜4倍減少し、エンティティの検索性能も改善(0.41→0.71 Recall@1)した。
- カスタム曖昧性ベンチマークでは、ProGAL-VLAがAUROC 0.81(0.52に対して)およびAUPR 0.79を達成し、曖昧な入力に対する明確化が大きく向上(0.09→0.81)した。さらに、非曖昧な入力では成功を維持している。




