概要:Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観と大規模AIシステムを調和させるための広く用いられているアプローチです。
しかし、RLHF は通常、単一の普遍的な報酬を前提としており、多様な嗜好を見落とし、個別化を制限します。
Variational Preference Learning (VPL) は、ユーザー固有の潜在変数を導入することでこれに対処しようとします。
その約束にもかかわらず、VPL は後方分布崩壊を生じることがあると分かりました。この現象は VAEs ではよく知られていますが、嗜好学習フレームワークではこれまで特定されたことはありませんでした。
希薄な嗜好データと過度に表現力のあるデコーダを用いると、VPL は潜在変数を無視させ、単一報酬モデルへと戻ってしまう可能性があります。
この限界を克服するために、Swap-guided Preference Learning(SPL)を提案します。
核心となるアイデアは、架空のスワップ注釈者を構築し、それらの嗜好の鏡像性を利用してエンコーダを導くことです。
SPL は3つの構成要素を導入します: (1) スワップ誘導型ベース正則化、(2) 嗜好性逆自己回帰フロー(P-IAF)、(3) 適応的潜在条件付け。
実験では、SPL が崩壊を緩和し、ユーザー固有の潜在変数を豊かにし、嗜好予測を改善することを示しています。
我々のコードとデータは https://github.com/cobang0111/SPL で利用可能です。
人間のフィードバックに基づく個別化強化学習のためのスワップ誘導型嗜好学習
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RLHF(人間のフィードバックによる強化学習)がしばしば単一の普遍的報酬に依存しており、多様なユーザー嗜好を捉えられず、個別化を妨げると主張している。
- 疎なデータと表現力の高いデコーダを前提とする変分嗜好学習(VPL)において事後崩壊が生じ、潜在変数が単一の報酬を優先して無視される可能性がある。
- スワップ誘導型嗜好学習(SPL)を提案し、三つの構成要素:スワップ誘導ベース正則化、嗜好付き逆自己回帰フロー(P-IAF)、適応的潜在条件付けを備え、架空のスワップアノテータと嗜好の鏡像性を活用する。
- 実験により、SPLは崩壊を緩和し、ユーザー固有の潜在表現を豊かにし、嗜好予測を改善することが示され、コードとデータはGitHubで公開されている。




