複数の嗜好オラクルによるオフライン制約付きRLHF

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、保護された集団に対する安全性/公平性の制約と全体的な有用性のバランスを取るために、複数の嗜好オラクルを用いた人間のフィードバック（RLHF）によるオフライン制約付き強化学習を扱う。
参照方策のもとで収集された一対比較から最大尤度によってオラクル固有の報酬を推定し、その結果として得られる双対最適化に対する統計的不確実性の影響を分析する。
制約付き問題を、KL正則化ラグランジアンへと再定式化し、Gibbs方策の原解を用いることで、学習課題を凸双対問題へと変換する。
著者らは、制約充足について高い確率での保証を与え、オフライン制約付き嗜好学習における有限サンプルの性能上界を導く、双対のみのアルゴリズムを提案する。
理論的枠組みを、複数の制約や、KLを超えたより一般的なfダイバージェンス正則化に対応できるよう拡張する。

概要: 私たちは、複数の選好オラクルを用いた、人間のフィードバックによるオフライン制約付き強化学習を研究します。性能と安全性、または公平性の両立を要請する応用に動機づけられ、最低限の保護された集団の厚生（ウェルフェア）に関する制約を満たしつつ、目標集団の効用を最大化することを目指します。参照ポリシーのもとで収集された一対比較から、最大尤度によりオラクル固有の報酬を推定し、統計的不確実性が双対プログラムを通じてどのように伝播するかを解析します。制約付きの目的を、KL正則化されたラグランジアンとして定式化し、その原問題の最適化解がギブスポリシーであることにより、学習を凸双対問題へと還元します。高い確率で制約充足を保証する双対のみのアルゴリズムを提案し、オフライン制約付き選好学習に対する最初の有限サンプルの性能保証を与えます。最後に、複数の制約および一般のf-発散（f-divergence）正則化に対応するために、理論解析を拡張します。