言うべきことを明確に:視覚的に根拠付けられた指示ポリシー

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision-Language-Actionモデル向けのプラグ・アンド・プレイ型ポリシーであるPoint-VLAを提案する。これは、(バウンディングボックスのような)明示的な視覚的グラウンディング指標で言語指示を補強し、散らかった環境や分布外のシーンにおける対象の指示(object referring)を改善する。
  • テキストのみの指示によるVLAセットアップにおいて残存する指示対象の曖昧さに対し、より正確な対象レベルの身体性(embodied)制御を可能にするために、ピクセルレベルの対象ローカライズを実現する。
  • 著者らは、視覚的に根拠付けられたデータセットを効率的に拡張するため、低い人的労力で済む自動データ注釈パイプラインを導入する。
  • 多様な実世界の指示対象タスクにおいて、Point-VLAはテキストのみの指示VLAよりも一貫して優れた性能を示し、未見の対象シナリオに対しても頑健に一般化する。

Abstract

視覚-言語-行動(VLA)モデルは、視覚と、身体化された制御を伴う言語を整合させますが、テキストプロンプトのみに依存する場合、物の指示(参照)能力は特に散らかった(cluttered)状況や分布外(OOD)シーンでは限定的なままです。本研究では、参照の曖昧さを解消し、対象物レベルの正確なグラウンディングを可能にするために、明示的な視覚的手がかり(例:バウンディングボックス)で言語指示を補強する、プラグアンドプレイの方策であるPoint-VLAを提案します。さらに、視覚的にグラウンディングされたデータセットを効率的に拡張するために、人手を最小限にする自動データ注釈パイプラインも開発します。多様な実世界の参照タスクにおいてPoint-VLAを評価したところ、テキストのみの指示型VLAよりも一貫して強い性能を示し、特に散らかった状況や未見の対象物が登場するシナリオで顕著でした。また、堅牢な汎化が確認されます。これらの結果は、Point-VLAがピクセルレベルの視覚的グラウンディングを通じて物の参照の曖昧さを効果的に解決し、より汎用性の高い身体化された制御を実現できることを示しています。