STAR:回転拡張ベクトル量子化によって多様なロボット技能の抽象化を学習する

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑な行動へとそれらを組み合わせるための離散的なロボット技能抽象化を学習する枠組みSTAR(Skill Training with Augmented Rotation)を提案する。
  • VQ-VAE系の手法におけるコードブック崩壊の問題に対処するため、回転に基づく勾配メカニズムを用いて同一の技能コード内で埋め込み空間を構造化する、回転拡張残差技能量子化(RaRSQ)を提案する。
  • 学習した技能同士の因果的な関係の捉え方をより適切にするため、自己回帰的アプローチであるCausal Skill Transformer(CST)を提示し、一貫した行動生成において技能表現間の依存関係を捉える。
  • LIBEROベンチマークおよび実世界のタスクでの実験により、STARはベースライン手法に比べて約12%性能を向上させることが示される。
  • 総じて本研究は、表現学習(頑健な離散技能コード)と技能合成(依存関係を考慮した生成)の双方を前進させ、ロボットマニピュレーションに寄与する。

概要: 複雑な行動を離散的なスキルの抽象化へ変換することは、ロボットによる操作において強い可能性を示してきました。既存のアプローチは主に潜在変数モデル、たとえば VQ-VAE を活用して、学習されたベクトル(コードブック)を通じてスキルの抽象化を学習します。しかし、コードブックの崩壊や、学習されたスキル間の因果関係のモデリングに問題があります。これらの制約に対処するために、私たちは
\textbf{S}kill \textbf{T}raining with \textbf{A}ugmented \textbf{R}otation(\textbf{STAR})という枠組みを提案します。これは、複雑な振る舞いを完遂するために、スキル学習と合成の両方を前進させるものです。具体的には、コードブックの崩壊を防ぐために、回転拡張残差スキル量子化(RaRSQ)を考案します。これにより、エンコーダ出力間の相対角度を、回転ベースの勾配メカニズムによって勾配フローへ符号化します。同一のスキルコード内の点は、勾配方向に応じて、互いに押し広げられるか、互いに引き寄せられるかのいずれかになるよう強制されます。さらに、スキル間の因果関係を捉えるために、因果スキルトランスフォーマ(CST)を提示します。CST は、自己回帰的な機構を通じて、首尾一貫した行動生成のためのスキル表現間の依存関係を明示的にモデル化します。大規模な実験により、LIBERO ベンチマークおよび実環境タスクの両方において、STAR がベースラインを上回ることが示され、改善幅はおよそ 12\% です。