人間のフィードバックによる強化学習に対するワッサースタイン分布ロバスト・後悔(レグレット)最適化

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、RLHFを目的のミススペシフィケーション下の意思決定問題として捉え、学習された代理報酬が真の人間の有用性と乖離すると、Goodharting(代理報酬の改善が真の品質低下と共に起きる現象)につながり得ることを示します。
  • そこで、ワッサースタイン分布ロバスト・後悔最適化(DRRO)を提案し、標準的なDROのように「最悪の価値」を悲観するのではなく、「同じ妥当な報酬摂動下での最良方策に対する最悪の後悔」を悲観します。
  • 著者らはプロンプト単位の定式化(単体配分モデル)を解析し、ℓ1のあいまいさ集合のもとでは内側の最悪ケース後悔が厳密に解け、最適方策がウォーターフィリング構造を持つことを示します。
  • さらに、政策勾配アルゴリズムを導出し、PPO/GRPO型のRLHF学習に対して大きな変更なしに組み込める実用性を提示し、実験では既存ベースラインよりもオーバー最適化の抑制が有効であることを示します。
  • 本枠組みは、DRROが標準DROよりも悲観的になり過ぎない理由を理論的に説明しつつ、代理報酬への過剰適合に対して頑健性が高いことを裏付けています。