視覚-言語-行動システムにおける統一エゴセントリック表現のためのROI駆動型フォビエイテッド・アテンション

arXiv cs.RO / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、体性感覚(embodied)ビジョン-言語-行動システムにおける主要なボトルネック、すなわち高コストな物理的相互作用データ収集、弱いクロスボディ(cross-embodiment)整合、そしてインターネット規模の視覚データからロボット制御への限られた転移を扱う。
  • これに対し、終端エフェクタ(手先)姿勢を単一の外部カメラに投影し、動きに整合した手中心(hand-centric)領域を導出することで、幾何学に基づくエゴセントリック表現を生成するROI駆動型の工学的ワークフローを提案する。
  • 単純なフレームのダウンサンプリングとは異なり、本手法は元画像からROIを切り出してからリサイズすることで、接触が重要な領域における情報密度の高さを保持しつつ、全体的な文脈(グローバルコンテキスト)も維持する。
  • 著者らは、キャリブレーション、同期、ROI生成、決定論的な境界処理、メタデータ管理(governance)を含む、再現可能なパイプラインを提示し、多様なロボット間でのデータ再利用を大規模に支援する。
  • 本研究は、エゴセントリックROIを、インターネット規模の知覚とロボット固有の制御を橋渡しし、さらにクロスボディ学習を可能にするための実用的な抽象化として位置づける。

Abstract

体(embodied)型AIシステムの開発は、物理的な相互作用データの利用可能性とその構造によって、ますます制約を受けています。視覚-言語-行動(VLA)モデルの最近の進歩にもかかわらず、現行のパイプラインは、データ収集コストが高いこと、身体(embodiment)間の位置合わせが不十分であること、そしてインターネット規模の視覚データからロボット制御への転移がうまくいかないことに悩まされています。 本稿では、関心領域(ROI)駆動のエンジニアリングワークフローを提案し、エゴセントリックで幾何学に根ざしたデータ表現を導入します。順運動学(FK)により終端エフェクタの姿勢を単一の外部カメラへ投影することで、手首搭載カメラや多視点システムを必要とせずに、動作に整合した手中心(hand-centric)のROIを導出します。全フレームを単純にダウンサンプリングするのとは異なり、ROIはリサイズの前に元画像から切り出されます。これにより、接触が重要な領域における高い局所情報密度を維持しつつ、グローバルな文脈も保持します。 キャリブレーション、同期、ROI生成、決定論的な境界処理、メタデータの統治(governance)を含む、再現可能なパイプラインを提示します。得られた表現は、身体化に整合し、かつ視点が正規化されたものとなります。これにより、異種のロボット間でデータを再利用できます。本稿では、エゴセントリックROIが、スケーラブルな収集と身体(embodiment)間学習のための実用的なデータ抽象化であると主張し、インターネット規模の知覚とロボット固有の制御を橋渡しすることを示します。