要旨: LLMの効果的なパーソナライズは、バーチャルアシスタントやコンテンツキュレーションといった幅広いユーザー向けアプリケーションにとって重要です。LLMの強力なインコンテキスト能力に触発されて、我々は、報酬モデリングをメタラーニング問題として捉え直す、LLMパーソナライズのためのアルゴリズムであるfew-shot preference optimization(FSPO)を提案します。FSPOでは、LLMが少数のラベル付き嗜好(prefered)を通じて、ユーザーに対するパーソナライズされた報酬関数を素早く推論することを学習します。FSPOはさらに、ユーザー記述の合理化(RAT)を利用して、より良い報酬モデリングと指示追従を促し、オラクルとなるユーザー記述によって性能を回復します。現実世界の嗜好データは大規模に収集することが困難であるため、パーソナライズのための合成嗜好データセットを構築するための慎重な設計選択を提案し、公に利用可能なLLMを用いて1M件を超える合成パーソナライズ嗜好を生成します。合成データから実ユーザーへうまく移行させるためには、データが高い多様性と、首尾一貫した自己整合的な構造の両方を示すことが重要であることを我々は見出しています。3つの領域(映画レビュー、教育、オープンエンドの質問応答)において、最大1,500人の合成ユーザーに対するパーソナライズされたオープンエンド生成でFSPOを評価します。また、統制された人手による調査も実施します。総じて、FSPOは、合成ユーザー向けにパーソナライズされた応答生成においてAlpaca Evalで87%の勝率を達成し、オープンエンドの質問応答において実の人間ユーザーに対しては70%の勝率を達成します。
FSPO:合成嗜好の少数ショット最適化が実ユーザーへパーソナライズされる
arXiv stat.ML / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文はFSPO(Few-shot Preference Optimization)を提案し、メタラーニングに基づいて少数のラベル付き嗜好からユーザー固有の報酬関数を素早く推定し、LLMをパーソナライズする手法を示しています。
- FSPOはユーザー記述の合理化(RAT)を取り入れることで、報酬モデリングと指示追従の改善を促し、オラクルのユーザー記述を用いると性能が回復することを報告しています。
- 現実の嗜好データはスケールさせるのが難しいため、公開されているLLMを用いて大規模な合成嗜好データセット(100万件超)を生成する設計を行っています。
- 合成データから実ユーザーへうまく転移させるには、合成データが高い多様性と、筋の通った自己整合的な構造の両方を備えることが重要だと結論づけています。
- 映画レビュー、教育、オープンエンドQAの3ドメイン(合成ユーザー最大1,500人)に加えて統制下の人手評価を行い、合成ユーザーでのAlpaca Eval勝率87%、オープンエンドQAで実ユーザーに対する勝率70%を示しています。



