PrefMoE:Mixture of Experts による堅牢な嗜好モデリングと報酬学習
arXiv cs.RO / 2026/5/4
📰 ニュースModels & Research
要点
- PrefMoEは、嗜好データがノイズ混在・不均一・一部で矛盾している場合でも堅牢性を高めることを目的に、選好に基づく強化学習向けのMixture of Experts(MoE)アプローチを提案しています。
- すべての比較フィードバックに対して単一の報酬モデルを当てはめるのではなく、複数の専門的な「報酬エキスパート」を学習し、軌道(トラジェクトリ)レベルのソフトルーティングでそれらを適応的に組み合わせて、潜在する嗜好パターンの多様性を捉えます。
- エキスパートの崩壊(collapse)を防ぎ、学習を安定化するために、ロードバランシングの正則化が用いられます。
- D4RLの移動(ロコモーション)ベンチマークとMetaWorldの操作タスクで評価した結果、PrefMoEは嗜好予測の堅牢性を改善し、強力な単一モデルのベースラインよりも下流の方策学習をより信頼できる形で導くことが示されています。




