広告

CoMo:インターネット動画からスケーラブルなロボット学習のための連続的な潜在運動を学習する

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模なインターネット動画から連続的な潜在運動表現を教師なしで学習し、スケーラブルなロボット学習を支援する手法としてCoMoを提案する。
  • 従来の離散的な潜在運動アプローチの限界に対処する。これらは(例:静止した背景を過剰に抽出するなど)ショートカット学習を引き起こし得るほか、情報の損失や、微細なダイナミクスのモデリングが難しいという問題も抱える。
  • CoMoは、ショートカット学習を難しくし、学習された潜在表現の運動手がかりを強化するための早期の時間差分(Td)メカニズムを導入する。
  • 小さな正の時間オフセットと、逆方向のネガティブを用いた時間コントラスト学習(Tcl)を追加し、潜在表現が意味のある前景の運動に注目するよう促す。
  • シミュレーションおよび実環境での実験により、高いゼロショット汎化性能が示される。これにより、CoMoは未見の動画に対して有効な擬似アクションラベルを生成でき、拡散型および自己回帰型の両アーキテクチャにまたがって、共同学習(co-trained)されたロボット方策の改善につながる。

要旨: インターネット動画から潜在運動を教師なしで学習することは、ロボット学習にとって重要です。既存の離散的手法は一般に、小さなコードブックサイズでベクトル量子化することにより過剰な静的背景を抽出して生じるショートカット学習を緩和します。しかし、それらは情報損失を招き、より複雑で微細なダイナミクスの捉えが難しいという問題があります。さらに、離散的潜在運動の分布と連続的なロボット行動との間には本質的なギャップがあり、統一ポリシーの共同学習を妨げます。そこで本研究では、インターネット規模の動画から、より正確な連続的潜在運動を学習することを目的としたCoMoを提案します。CoMoは、ショートカット学習の難度を高め、運動の手がかりを明示的に強化するために、早期の時間差分(Td)メカニズムを採用します。加えて、潜在運動が意味のある前景をより適切に捉えることを保証するために、時間対照学習(Tcl)スキームも提案します。具体的には、正例ペアは小さな将来フレームの時間オフセットを用いて構築し、負例ペアは時間方向を直接反転することで形成します。提案するTdとTclは相乗的に機能し、潜在運動が前景により適切に焦点を当て、運動の手がかりを強化することを効果的に保証します。重要な点として、CoMoは強力なゼロショット汎化を示し、未知の動画に対して有効な疑似行動ラベルを生成できるようになります。大規模なシミュレーションと実環境での広範な実験により、CoMoの疑似行動ラベルで共同学習されたポリシーは、拡散モデルおよび自己回帰型アーキテクチャの両方において、優れた性能を達成することが示されています。

広告