LLMパーソナライズのための確率的嗜好ベースによる不確実性対応型変分報酬因子分解
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、限られたデータから推定した決定論的な重みとしてではなく、ユーザの嗜好を確率的にモデル化することで、LLMの報酬因子分解パーソナライズを改善するVariational Reward Factorization(VRF)を提案する。
- VRFは、変分エンコーダを用いて共通の嗜好空間内でユーザ固有の変分分布を学習し、それらを共有する確率的な基底関数へ、Wasserstein距離により対応付けることで、より信頼性の高い重みを得る。
- 分散を抑制する損失(variance-attenuated loss)により、ユーザ推論に伴う不確実性の影響を低減し、ユーザデータが乏しい、またはノイズを含む場合でもパーソナライズを頑健にすることを目指す。
- 3つのベンチマークでの実験により、VRFが、少数ショット設定や不確実性の異なる条件のもとで、見たことのあるユーザ/見たことのないユーザの両方において従来手法を上回り、その改善は下流のアライメント課題にも引き継がれることが示される。




