アブストラクト: 安全な人間のフィードバックからの強化学習(Safe Reinforcement Learning from Human Feedback, Safe RLHF)は、有用性と無害性に関する人間の嗜好を切り離すことで、有益で無害な大規模言語モデルを開発する際の実証的な成功を最近達成してきました。既存のアプローチは通常、人間のフィードバックから固定ホライゾンの報酬モデルを当てはめることに依存しており、実証によってのみ検証されています。本論文では、人間が単一の有限エピソード内ではなく、継続的な一連の相互作用の中でモデルとやり取りし得ることを踏まえ、安全なRLHFを無限ホライゾン割引付き制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)として定式化します。報酬モデルの当てはめを必要としない2つのSafe RLHFアルゴリズムを提案し、従来研究が仮定していた固定長の軌跡とは対照的に、学習において柔軟な軌跡長をサポートします。両アルゴリズムは原始-双対法に基づいており、政策勾配の反復回数、軌跡のサンプル長、人間の嗜好に関する問い合わせ回数の観点で多項式的なレートをもつグローバル収束の保証を達成します。私たちの知る限り、本研究は人間のフィードバックのもとで無限ホライゾン割引付きCMDPを扱い、グローバルな非漸近的収束を確立した最初の仕事です。
人間のフィードバックに基づく安全な強化学習のための政策勾配・プリマルデュアル手法
arXiv cs.LG / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、有限エピソードではなく継続的な相互作用の中で人間がモデルに関与し得る点を踏まえ、安全なRLHFを無限ホライズン・割引付き制約付きマルコフ決定過程(CMDP)として定式化します。
- 提案手法は2つの安全なRLHFアルゴリズムで、報酬モデルの学習(フィッティング)を必要とせず、CMDPの枠組みに基づいて動作します。また、学習時の軌道長を可変(柔軟)にできるようにしています。
- 両アルゴリズムはプリマル・デュアル法に基づき、従来のような経験的検証にとどまらず、グローバルな収束保証を与えます。
- 収束性は、政策勾配の反復回数、軌道サンプル長、人間の嗜好(プレファレンス)クエリ数に関して、多項式オーダーの収束率として示されます。
- 著者らは、人間のフィードバック下での無限ホライズン・割引付きCMDPを対象に、グローバルかつ非漸近的な収束保証を確立した初めての研究だと述べています。



