要旨: ゼロからロボットスキルを学習することは多くの場合時間がかかりますが、データを再利用することは持続可能性を促進し、サンプル効率を向上させます。本研究では、強化学習(RL)を用いたペグインホール課題に焦点を当て、異なるロボットプラットフォーム間での方策転移を調査します。方策の学習は2種類の異なるロボットで実施されます。これらの方策を転移し、ゼロショット、ファインチューニング、スクラッチからの学習について評価します。結果は、ゼロショット転移では成功率が低くなり、比較的タスク実行時間が長くなる一方で、ファインチューニングは、より少ない学習ステップ数で性能を大幅に改善することを示しています。これらの知見は、適応技術を伴う方策転移がサンプル効率と汎化性を向上させ、広範な再学習の必要性を低減し、持続可能なロボティクス学習を支えることを明らかにします。
適応ロボットスキルのための持続可能な転移学習
arXiv cs.RO / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、補強学習(強化学習)によるペグ・イン・ホール課題を用いて、異なるロボットプラットフォーム間でポリシー転移を行い、経験を再利用することで持続可能なロボット学習を検討する。
- 2つの異なるロボットで訓練されたポリシーを、ゼロショット転移、転移後の微調整、ターゲットプラットフォーム上でのスクラッチからの学習の3つの設定で評価する。
- ゼロショット転移は、転移したポリシーを適応させるアプローチと比べて、タスク成功率が低く、実行時間が長くなる。
- 転移したポリシーを微調整すると、スクラッチから学習する場合よりも少ない学習時間ステップで、大幅に性能が向上する。
- 著者らは、転移に適応を組み合わせることでサンプル効率と汎化が改善され、コストのかかる再訓練を減らし、より持続可能なロボットスキル開発につながると結論づけている。



