高度な汎用能力を備えているにもかかわらず、大規模言語モデル(LLM)は、多様な個々の嗜好に整合できないことがしばしばある。これは、強化学習による人間のフィードバック(RLHF)などの標準的なポストトレーニング手法が、単一のグローバル目的関数を最適化してしまうためである。オンポリシー強化学習の枠組みとして広く採用されているグループ相対方策最適化(GRPO)は、グループベースの正規化によって、暗黙的にすべてのサンプルが交換可能であると仮定している。この仮定はパーソナライズ設定においてそのまま限界を引き継いでしまう。すなわち、異なるユーザーの報酬分布を取り違えた形になり…
不均一な嗜好の整合のためのパーソナライズされたグループ相対方策最適化
Apple Machine Learning Journal / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ユーザーやサブグループの嗜好が不均一である場合に方策を整合させる手法として「パーソナライズされたグループ相対方策最適化(Personalized Group Relative Policy Optimization)」を提案する。
- 相対方策最適化を拡張し、グループ単位でのパーソナライズを取り入れることで、異なる嗜好プロファイルにまたがる嗜好充足の向上を目指す。
- 本研究は、嗜好整合のための強化学習における、より広い手法/アルゴリズムの系譜の中に位置づけられており、単一のグローバル目的関数では見落とされがちなばらつきへの対処を目標としている。
- 本研究は2026年4月にarXivで公開されており、著者にはJialu WangおよびHeinrich Petersが含まれている(ほかにも複数名)。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



