分離型報酬モデリングによる、人間のフィードバックからのプライバシー保護型強化学習
arXiv stat.ML / 2026/3/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、嗜好(人間の選好)データに機微なユーザー情報が含まれうる状況で、プライバシー保護型RLHF(Human Feedbackによる強化学習)を実行する方法を扱っている。具体的には、パイプライン全体ではなく報酬学習段階に対してのみ差分プライバシーを適用する。
- 提案手法では、最終的な方策をプライバシー保護された報酬モデルから導出し、RLHFの持つ独立した構造に手法を整合させている。
- 著者らは、プライバシーが標準的な(非プライベートな)統計誤差に加えて追加の項をもたらすことを示す、劣適合ギャップ(suboptimality gap)に関する理論解析を提示している。
- さらに、ミニマックス下限(minimax lower bounds)を証明し、サンプル数とプライバシーレベルに応じて支配的な誤差項がどのように変化するかを特定する。その結果、提案する上界が対数因子を除いてレート最適である領域(レジーム)を得ている。
- 合成実験および、Gemma-2B-ITを用いたAnthropicのHH-RLHFデータセットでの実験結果では、既存の差分プライバシー・ベースラインと比較して、プライバシー予算(privacy budgets)の範囲全体でプライベートなアライメント性能が向上していることが示されている。
