ACDC：ロボットマニピュレーションにおける目標条件付き強化学習のための動的コントラスト制御付き適応カリキュラム計画

arXiv cs.RO / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ロボットマニピュレーションにおける目標条件付き強化学習に対して、ACDC（Adaptive Curriculum Planning with Dynamic Contrastive Control）を提案し、経験優先度付けに基づく手法よりも改善することを目的とする。
ACDCは、成功率や学習の進捗といった指標を用いて、多様性に基づく探索と品質に基づく活用を動的にバランスさせるAdaptive Curriculum（AC）プランナを組み合わせる。
Dynamic Contrastive（DC）制御コンポーネントは、ノルム制約付きコントラスト学習により計画されたカリキュラムを実行し、学習の焦点に合わせるために大きさ（マグニチュード）に導かれた経験選択を用いる。
困難なロボットマニピュレーション課題での実験により、ACDCはサンプル効率および最終的なタスク成功率の両方において、最先端のベースラインよりも優れていることが報告される。

要旨: 状態目標に条件付けられた強化学習は、ロボットによるマニピュレーションにおいて大きな可能性を示してきました。しかし、既存の手法は収集した経験を優先して用いることに依存しているため、多様なタスクにおける性能が最適にならないという限界があります。人の学習行動に触発され、より包括的な学習パラダイムとしてACDCを提案します。これは、多次元の適応カリキュラム（AC）計画と、動的コントラスト（DC）制御を統合し、エージェントをよく設計された学習軌道に沿って導きます。より具体的には、計画レベルでは、AC成分が、エージェントの成功率と学習の進捗に基づいて、多様性に駆動された探索と、質に駆動された活用とのバランスを動的に調整することで、学習カリキュラムをスケジューリングします。制御レベルでは、DC成分が、規範（ノルム）制約付きのコントラスト学習によってカリキュラム計画を実装し、現在のカリキュラムの焦点に整合した大きさ（マグニチュード）に導かれる経験の選択を可能にします。困難なロボットマニピュレーション課題に対する大規模な実験により、ACDCはサンプル効率と最終的なタスク成功率の両方において、最先端のベースラインを一貫して上回ることを示します。