ActiveGlasses：エゴセントリックな人間デモンストレーションから能動視で操作を学習する

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

本論文は、能動視を用いてエゴセントリックな人間デモンストレーションから操作と知覚を取得し、学習するロボット学習システム「ActiveGlasses」を提案する。
スマートグラス上のステレオカメラをデータ収集に用いるだけでなく、同じカメラを6自由度（6-DoF）の知覚アームに取り付けることで、ゼロショット展開時のポリシー推論にも利用する。
プラットフォームをまたぐゼロショット転移を支えるため、この手法はデモンストレーションから物体の軌跡を抽出し、操作行動と頭部の移動を同時に予測するオブジェクト中心の点群（point-cloud）ポリシーを学習する。
隠蔽が多い精密インタラクション課題を複数用いた実験により、ActiveGlassesはゼロショット転移を達成し、同一ハードウェアの強力なベースラインよりも優れ、さらに2つの異なるロボットプラットフォーム間で汎化できることを示す。

概要: 大規模な実世界ロボットデータ収集は、ロボットを日常的な運用へ持ち込むための前提条件です。しかし、既存のパイプラインはしばしば、体現（エンボディメント）のギャップを埋めるために特殊なハンディデバイスに依存しており、その結果として運用者の負担が増えるだけでなく、スケーラビリティも制限されます。さらに、人の日常的な対人相互作用において自然に協調される知覚・操作行動を捉えることが難しくなります。この課題に対し、人の操作および知覚行動を忠実に記録しつつ、ロボットプラットフォームへのゼロショット転移を可能にする、より自然なシステムが求められます。本研究では、ActiveGlasses を提案します。これは、アクティブビジョンにより、エゴセントリックな人間のデモンストレーションからロボット操作を学習するためのシステムです。スマートグラスに搭載したステレオカメラを、データ収集とポリシー推論の両方に対する唯一の知覚デバイスとします。運用者は素手でのデモンストレーション中にそれを装着し、展開時には同じカメラを6自由度（6-DoF）の知覚アームに取り付けて、人の能動的な視覚（active vision）を再現します。ゼロ転移を可能にするために、デモンストレーションから物体の軌道を抽出し、物体中心のポイントクラウド・ポリシーを用いて、操作と頭部の動きを同時に予測します。遮蔽や精密な相互作用を含むいくつかの困難なタスクにおいて、ActiveGlasses はアクティブビジョンによるゼロショット転移を達成し、同一のハードウェア構成の下で強力なベースラインを一貫して上回ります。また、2つのロボットプラットフォームにわたって汎化します。