ProGAL-VLA：視覚言語行動モデルにおける事前推論によるグラウンディング（根拠付け）アラインメント

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ProGAL-VLAは、指示の変化に応じて行動が敏感になるようにすることで、汎用ロボットエージェントの「言語無理解（language ignorance）」を解決するための視覚言語行動（VLA）アプローチである。
この手法では、3Dのエンティティ中心グラフを構築し、遅い（slow）プランナで象徴的なサブ目標を生成し、Grounding Alignment Contrastive（GAC）損失を用いてサブ目標をグラウンディングされた対象（エンティティ）に整合させる。
行動は検証済みのゴール埋め込みに基づいて条件付けされ、注意エントロピーを固有の曖昧性シグナルとして用いることで、曖昧性を踏まえた振る舞いを支援しつつ、非曖昧なタスクでの性能低下を抑える。
LIBERO-Plusでの報告結果では、ロボットの外乱に対する頑健性が大幅に向上（30.3→71.5%）、言語無理解が3〜4倍減少し、エンティティの検索性能も改善（0.41→0.71 Recall@1）した。
カスタム曖昧性ベンチマークでは、ProGAL-VLAがAUROC 0.81（0.52に対して）およびAUPR 0.79を達成し、曖昧な入力に対する明確化が大きく向上（0.09→0.81）した。さらに、非曖昧な入力では成功を維持している。

概要: 視覚言語アクション（Vision language action, VLA）モデルは汎用のロボットエージェントを可能にしますが、多くの場合言語を無視する挙動が見られ、視覚的な近道に依存し、指示が変わっても鈍感です。そこで本研究では、Prospective Grounding and Alignment VLA（ProGAL-VLA）を提示します。これは、3Dの対象中心グラフ（GSM）を構築し、遅いプランナーによって記号的なサブ目標を生成し、それらをGrounding Alignment Contrastive（GAC）損失により実際に根拠づけられた対象（エンティティ）と整合させます。すべての行動は検証済みの目標埋め込み $g_t$ を条件としており、その注意エントロピーは固有の曖昧性（ambiguity）信号を与えます。LIBERO-Plusにおいて、ProGAL-VLAはロボットへの擾乱に対する頑健性を30.3から71.5パーセントへと向上させ、言語無視を3倍〜4倍低減し、エンティティの検索を0.41から0.71 Recall@1へと改善します。Custom Ambiguity Benchmarkでは、AUROC 0.81（0.52に対して）、AUPR 0.79を達成し、曖昧な入力に対する明確化（clarification）を0.09から0.81へと引き上げます。さらに、曖昧でない場合の成功を損なうことはありません。検証のボトルネックは言語-行動の相互情報量を増大させ、GAC損失は対象レベルのInfoNCEの上界を課し、注意エントロピーは較正された選択的予測をもたらします。これらは、明示的な検証済みのグラウンディングが、指示に敏感で曖昧性を意識したエージェントへの有効な道筋であることを示しています。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

ProGAL-VLA：視覚言語行動モデルにおける事前推論によるグラウンディング（根拠付け）アラインメント

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵