PCHC:多目的強化学習による嗜好(プレファレンス)条件付ヒューマノイド制御の実現

arXiv cs.RO / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多目的強化学習を用いてPCHC(Preference-Conditioned Humanoid Control:嗜好条件付ヒューマノイド制御)を導入し、速度と消費エネルギーのような相反するヒューマノイドの目的のバランスを取ることを示す。
  • 既存の強化学習アプローチは固定の重み付けに依存することが多く、単一の不十分(準最適)な方策しか得られない一方、本手法は多様で、パレートフロントに整合した振る舞いを目指すと主張する。
  • 提案フレームワークでは、嗜好ベクトルに駆動されるベータ分布に基づくアラインメント(整合)機構を用いて、1つの嗜好条件付方策のもとで、Mixture-of-Experts(MoE)モジュールを調整する。
  • 2つのヒューマノイド課題に対する実験により、ロボットが与えられた嗜好条件に基づいて目的の優先度をリアルタイムに切り替えられることが、シミュレーションと実機テストの双方によって裏付けられる。

Abstract

ヒューマノイドロボットはしばしば、エネルギー消費を最小化しつつ速度を最大化するといった、相反する目的の両立が求められます。現在の強化学習(RL)手法は、転倒回復や知覚に基づく移動といった複雑なスキルを習得できますが、洗練された多目的制御に対して多様な解の集合を提供するのではなく、固定された重み付け戦略によって1つの準最適な方策に制約されます。本論文では、Multi-Objective Reinforcement Learning(MORL:多目的強化学習)を活用した新しい枠組みを提案し、Preference-Conditioned Humanoid Control(PCHC:嗜好条件付きヒューマノイド制御)を実現します。パレートフロントを近似するために一連の方策を学習する必要がある従来の手法とは異なり、本枠組みでは、単一の嗜好条件付き方策が幅広い多様な行動スペクトルを示せるようにします。これらの要件を効果的に統合するために、嗜好ベクトルに基づいてMixture-of-Experts(MoE:ミクスチャ・オブ・エキスパーツ)モジュールを調整する、嗜好ベクトルによる整合(アラインメント)メカニズムとして、ベータ分布ベースの手法を導入します。代表的な2つのヒューマノイドタスクで本アプローチを検証しました。大規模なシミュレーションと実環境での実験により、提案する枠組みによってロボットが入力された嗜好条件に基づき、リアルタイムで目的の優先順位を適応的に切り替えられることが示されました。