要旨: 高度な汎用能力を備えるにもかかわらず、大規模言語モデル(LLMs)は、RLHF のような標準的な事後学習手法が単一のグローバル目的に最適化されるため、多様な個人の嗜好と一致することが難しいことが多い。Group Relative Policy Optimization(GRPO)は広く採用されているオンポリシーの強化学習フレームワークだが、そのグループベースの正規化はすべてのサンプルが交換可能であると仮定しており、個別設定でこの制約を継承してしまう。この仮定は異なるユーザー報酬分布を混同させ、支配的な嗜好へと学習を体系的に偏らせ、少数の信号を抑制する。これに対処するため、本研究では個別化GRPO(P-GRPO)という新しい整合フレームワークを導入する。P-GRPO は嗜好グループ特有の報酬履歴に対してアドバンテージを正規化することにより、同時生成グループではなく直近バッチ統計からアドバンテージをデカップリングする。これにより、異なる嗜好を学習するために必要な対比信号を保持する。多様なタスクにおいて P-GRPO を評価したところ、標準 GRPO よりも一貫して収束が速く、より高い報酬を達成し、異質な嗜好信号を回復・整合させる能力を高めることを示した。私たちの結果は、最適化レベルで報酬のヘテロジニティを考慮することが、多様な人間の嗜好と忠実に整合するモデルを構築するうえで不可欠であり、一般的な能力を損なうことなくそれを実現できることを示している。
異質な嗜好の整合のための個別化グループ相対方策最適化
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なグループ相対方策最適化(GRPO)が交換可能なサンプルを仮定していると主張し、これはLLM整合において支配的嗜好へ学習を偏らせる可能性がある。
- それは嗜好グループ別の報酬履歴に対してアドバンテージを正規化することにより、アドバンテージ推定を直近のバッチ統計から切り離す新しい個別化GRPO(P-GRPO)を導入する。
- 多様なタスクにおいて、P-GRPO は標準GRPO よりも収束が速く、報酬が高くなることを示し、一般的な能力を損なうことなく異質なユーザー嗜好に対する整合性を高める。
- この研究は、報酬のヘテロジニティを最適化レベルで考慮することの重要性を強調しており、多様な人間の嗜好と忠実に整合するモデルを構築するうえで不可欠である。
関連記事
Is AI becoming a bubble, and could it end like the dot-com crash?
Reddit r/artificial

Externalizing State
Dev.to

I made a 'benchmark' where LLMs write code controlling units in a 1v1 RTS game.
Dev.to

My AI Does Not Have a Clock
Dev.to
How to settle on a coding LLM ? What parameters to watch out for ?
Reddit r/LocalLLaMA