GazeVLA：注視から学習する人間の意図によるロボットの操作

arXiv cs.RO / 2026/4/27

📰 ニュースModels & Research

共有:

要点

GazeVLAは、人間とロボットの間にある「エンボディメント・ギャップ」を、人間の意図を中間表現として用いることで埋めることを提案しています。
この手法では意図を視線（gaze）からモデル化し、視線を身体動作の直前に現れる観測可能な手がかりとしてロボット行動へ転移できると位置付けています。
GazeVLAは、大規模な一人称視点の人間データで事前学習して意図と行動の関係を捉え、その後、少量のロボットおよび人間データで微調整します。
推論時にはChain-of-Thought型のプロセスを用い、意図を段階的に予測してから行動を実行します。
シミュレーションと実世界の両方で、長期ホライズン・微細タスク・少数ショット・頑健性ベンチマークにわたり、強力なベースラインを一貫して上回り、最先端性能を達成したと報告されています。

概要: 身体化された基盤モデルは、ロボットの操作において大きなブレークスルーを達成してきましたが、それでもなお大規模なロボットのデモンストレーションに強く依存しています。近年、人のデータを活用してこの依存を軽減する試みが行われているものの、人間とロボットの間に本質的な身体化ギャップが存在するため、移転可能な知識を効果的に抽出することは依然として大きな課題です。本研究では、人間の行動の背後にある意図が、このギャップを埋めるための強力な中間表現として機能しうると主張します。本論文では、人間の意図を明示的に学習し、それを転送してロボット操作を促進する、新しい枠組みを提案します。具体的には、意図を視線（gaze）によってモデル化します。視線は自然に物理的な行動に先行し、人間の意図の観測可能な代理指標として機能するためです。提案モデルはまず、大規模な一人称視点の人間データセット上で事前学習し、人間の意図とそれが行動とどのように相乗しているかを捉えます。その後、少量のロボットデータと人間データ上で微調整を行います。推論時には、モデルはChain-of-Thought（思考の連鎖）的な推論パラダイムを採用し、行動を実行する前に順に意図を予測します。シミュレーションおよび実環境における大規模評価、長期ホライズンと微細なタスク、そしてfew-shotならびに頑健性ベンチマークにおいて、提案手法は一貫して強力なベースラインを上回り、より良く汎化し、最先端の性能を達成することを示します。