視覚-言語-行動システムにおける統一エゴセントリック表現のためのROI駆動型フォビエイテッド・アテンション
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、体性感覚(embodied)ビジョン-言語-行動システムにおける主要なボトルネック、すなわち高コストな物理的相互作用データ収集、弱いクロスボディ(cross-embodiment)整合、そしてインターネット規模の視覚データからロボット制御への限られた転移を扱う。
- これに対し、終端エフェクタ(手先)姿勢を単一の外部カメラに投影し、動きに整合した手中心(hand-centric)領域を導出することで、幾何学に基づくエゴセントリック表現を生成するROI駆動型の工学的ワークフローを提案する。
- 単純なフレームのダウンサンプリングとは異なり、本手法は元画像からROIを切り出してからリサイズすることで、接触が重要な領域における情報密度の高さを保持しつつ、全体的な文脈(グローバルコンテキスト)も維持する。
- 著者らは、キャリブレーション、同期、ROI生成、決定論的な境界処理、メタデータ管理(governance)を含む、再現可能なパイプラインを提示し、多様なロボット間でのデータ再利用を大規模に支援する。
- 本研究は、エゴセントリックROIを、インターネット規模の知覚とロボット固有の制御を橋渡しし、さらにクロスボディ学習を可能にするための実用的な抽象化として位置づける。
