Abstract
人間のフィードバックによる強化学習(RLHF)は、LLM(大規模言語モデル)を人間の意図に整合させるために重要になってきました。しかし、既存のオフラインRLHF手法は、過度最適化に悩まされています。これは、言語モデルが不正確さに過適合して劣化し、学習時に観測された望ましい振る舞いから逸脱していく現象です。分布的に頑健な最適化(DRO)は自然な解決策ですが、既存のDRO-DPO手法はサンプル効率が悪く、嗜好の異質性を無視し、脆いヒューリスティックに依存しています。そこで本研究では、
\emph{DRO-REBEL}、すなわち type-p Wasserstein、Kullback-Leibler(KL)、chi^2曖昧性集合に基づく頑健なオンラインREBEL更新のファミリーを導入します。強い双対性により、各更新は相対報酬回帰にまで還元されます。これにより、PPOスタイルのクリッピングや価値ネットワークなしで、REBELのスケーラビリティを維持します。線形報酬、対数線形ポリシー、標準的なカバレッジ条件のもとで、二乗パラメータ誤差に対する widetilde{O}(sqrt{d/n}) の境界を、先行するDRO-DPO解析よりも鋭い定数付きで証明します。また、嗜好シフトのもとでDROに基づく整合のための最初のパラメトリックな widetilde{O}(d/n) レートを与えます。これは良性の状況における非頑健RLHFと一致します。各発散は、計算可能なSGDベースのアルゴリズムに落とし込みます。Wassersteinには勾配正則化、KLには重要度重み付け、chi^2には1次元の双対問題の解を用います。Emotion Alignment、ArmoRMのマルチ目的ベンチマーク、およびHH-Alignmentにおいて、DRO-REBELは、未見の嗜好混合、モデルサイズ、データセット規模にわたって、先行する頑健・非頑健のベースラインを上回ります。