PCHC:多目的強化学習による嗜好(プレファレンス)条件付ヒューマノイド制御の実現
arXiv cs.RO / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多目的強化学習を用いてPCHC(Preference-Conditioned Humanoid Control:嗜好条件付ヒューマノイド制御)を導入し、速度と消費エネルギーのような相反するヒューマノイドの目的のバランスを取ることを示す。
- 既存の強化学習アプローチは固定の重み付けに依存することが多く、単一の不十分(準最適)な方策しか得られない一方、本手法は多様で、パレートフロントに整合した振る舞いを目指すと主張する。
- 提案フレームワークでは、嗜好ベクトルに駆動されるベータ分布に基づくアラインメント(整合)機構を用いて、1つの嗜好条件付方策のもとで、Mixture-of-Experts(MoE)モジュールを調整する。
- 2つのヒューマノイド課題に対する実験により、ロボットが与えられた嗜好条件に基づいて目的の優先度をリアルタイムに切り替えられることが、シミュレーションと実機テストの双方によって裏付けられる。