相対報酬への回帰によるオンライン分布ロバストLLMアライメント

arXiv stat.ML / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、オフラインRLHFで起きる過最適化(学習時の不正確さに過剰適合して好ましい挙動から逸脱する問題)に対処するため、アライメントに分布ロバスト最適化(DRO)を導入することを狙っている。
  • DRO-REBELと呼ばれる新手法を提案し、type-p Wasserstein、KL、chi^2の曖昧さ集合に基づく「オンラインDROベースのREBEL更新」を構築して、強い双対性により各更新を相対報酬回帰として言い換える。
  • 先行するDRO-DPOと比べて、DRO-REBELはサンプル効率の悪さや、異質な嗜好(heterogeneous preferences)の取り扱い欠如、脆いヒューリスティックへの依存を避け、PPO型のクリッピングや価値ネットワークも不要としている。
  • 理論面では、前提条件のもとでoodtilde{O}(sqrt(d/n))の誤差・収束境界を示し、さらに嗜好シフト下ではoodtilde{O}(d/n)の改善されたパラメトリックな率を与えている。
  • 実験では、Emotion Alignment(ArmoRMマルチ目的ベンチマーク)およびHH-Alignmentにおいて、未観測の嗜好混合・モデル規模・データセット規模のいずれに対しても、頑健/非頑健の既存ベースラインを上回った。

Abstract

人間のフィードバックによる強化学習(RLHF)は、LLM(大規模言語モデル)を人間の意図に整合させるために重要になってきました。しかし、既存のオフラインRLHF手法は、過度最適化に悩まされています。これは、言語モデルが不正確さに過適合して劣化し、学習時に観測された望ましい振る舞いから逸脱していく現象です。分布的に頑健な最適化(DRO)は自然な解決策ですが、既存のDRO-DPO手法はサンプル効率が悪く、嗜好の異質性を無視し、脆いヒューリスティックに依存しています。そこで本研究では、 \emph{DRO-REBEL}、すなわち type-p Wasserstein、Kullback-Leibler(KL)、chi^2曖昧性集合に基づく頑健なオンラインREBEL更新のファミリーを導入します。強い双対性により、各更新は相対報酬回帰にまで還元されます。これにより、PPOスタイルのクリッピングや価値ネットワークなしで、REBELのスケーラビリティを維持します。線形報酬、対数線形ポリシー、標準的なカバレッジ条件のもとで、二乗パラメータ誤差に対する widetilde{O}(sqrt{d/n}) の境界を、先行するDRO-DPO解析よりも鋭い定数付きで証明します。また、嗜好シフトのもとでDROに基づく整合のための最初のパラメトリックな widetilde{O}(d/n) レートを与えます。これは良性の状況における非頑健RLHFと一致します。各発散は、計算可能なSGDベースのアルゴリズムに落とし込みます。Wassersteinには勾配正則化、KLには重要度重み付け、chi^2には1次元の双対問題の解を用います。Emotion Alignment、ArmoRMのマルチ目的ベンチマーク、およびHH-Alignmentにおいて、DRO-REBELは、未見の嗜好混合、モデルサイズ、データセット規模にわたって、先行する頑健・非頑健のベースラインを上回ります。