言うべきことを明確に：視覚的に根拠付けられた指示ポリシー

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Vision-Language-Actionモデル向けのプラグ・アンド・プレイ型ポリシーであるPoint-VLAを提案する。これは、（バウンディングボックスのような）明示的な視覚的グラウンディング指標で言語指示を補強し、散らかった環境や分布外のシーンにおける対象の指示（object referring）を改善する。
テキストのみの指示によるVLAセットアップにおいて残存する指示対象の曖昧さに対し、より正確な対象レベルの身体性（embodied）制御を可能にするために、ピクセルレベルの対象ローカライズを実現する。
著者らは、視覚的に根拠付けられたデータセットを効率的に拡張するため、低い人的労力で済む自動データ注釈パイプラインを導入する。
多様な実世界の指示対象タスクにおいて、Point-VLAはテキストのみの指示VLAよりも一貫して優れた性能を示し、未見の対象シナリオに対しても頑健に一般化する。

Abstract

視覚-言語-行動（VLA）モデルは、視覚と、身体化された制御を伴う言語を整合させますが、テキストプロンプトのみに依存する場合、物の指示（参照）能力は特に散らかった（cluttered）状況や分布外（OOD）シーンでは限定的なままです。本研究では、参照の曖昧さを解消し、対象物レベルの正確なグラウンディングを可能にするために、明示的な視覚的手がかり（例：バウンディングボックス）で言語指示を補強する、プラグアンドプレイの方策であるPoint-VLAを提案します。さらに、視覚的にグラウンディングされたデータセットを効率的に拡張するために、人手を最小限にする自動データ注釈パイプラインも開発します。多様な実世界の参照タスクにおいてPoint-VLAを評価したところ、テキストのみの指示型VLAよりも一貫して強い性能を示し、特に散らかった状況や未見の対象物が登場するシナリオで顕著でした。また、堅牢な汎化が確認されます。これらの結果は、Point-VLAがピクセルレベルの視覚的グラウンディングを通じて物の参照の曖昧さを効果的に解決し、より汎用性の高い身体化された制御を実現できることを示しています。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

言うべきことを明確に：視覚的に根拠付けられた指示ポリシー

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer