言うべきことを明確に:視覚的に根拠付けられた指示ポリシー
arXiv cs.RO / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision-Language-Actionモデル向けのプラグ・アンド・プレイ型ポリシーであるPoint-VLAを提案する。これは、(バウンディングボックスのような)明示的な視覚的グラウンディング指標で言語指示を補強し、散らかった環境や分布外のシーンにおける対象の指示(object referring)を改善する。
- テキストのみの指示によるVLAセットアップにおいて残存する指示対象の曖昧さに対し、より正確な対象レベルの身体性(embodied)制御を可能にするために、ピクセルレベルの対象ローカライズを実現する。
- 著者らは、視覚的に根拠付けられたデータセットを効率的に拡張するため、低い人的労力で済む自動データ注釈パイプラインを導入する。
- 多様な実世界の指示対象タスクにおいて、Point-VLAはテキストのみの指示VLAよりも一貫して優れた性能を示し、未見の対象シナリオに対しても頑健に一般化する。
