広告

Cortical Policy:ロボット操作のためのデュアルストリーム・ビュー・トランスフォーマー

arXiv cs.RO / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、静的ビュー入力と動的ビュー入力の両方から同時に推論する「Cortical Policy」を提案しており、ビュー固有の静的特徴だけを用いるのではなく、ロボット操作のためのデュアルストリーム・ビュー・トランスフォーマーを実現する。
  • 静的ビュー・ストリームは、事前学習済みの3D基盤モデルの助けを用いて抽出した、幾何学的に整合したキーポイントの特徴を位置合わせすることで、3D空間理解を向上させる。
  • 動的ビュー・ストリームは、人の大脳皮質の背側経路に着想を得て、自己視点(egocentric)視線推定モデルに対する位置情報を考慮した事前学習を用いることで、適応的で運動に関連した推論を可能にする。
  • 両ストリームから統合された表現は言語条件付きの行動を生成し、RLBench、COLOSSEUM、および実世界タスクに関する実験では、最先端のベースラインに比べて大幅な向上が示される。
  • 著者らは、皮質に着想したデュアルストリーム設計が、3D空間推論と動的適応における従来の限界に対処できると主張しており、視覚ベースのロボット制御へのより広範な応用の可能性がある。

広告