統計的に不可能であること、そしてLLMを人間の嗜好に整合させる可能性:コンドルセのパラドックスからナッシュ均衡へ
arXiv stat.ML / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多様な人間の嗜好にLLMを整合(アライン)させる際の根本的な統計的限界を、嗜好の確率的な表現が学習可能性や公平性に与える影響に焦点を当てて検討している。
- LLMが生成する応答同士の間にコンドルセのサイクル(循環)が存在しない場合に限り、人間の嗜好は報酬モデルとして表現できることを示し、報酬ベースの整合が満たすべき嗜好の整合条件を明確にした。
- Luceという確率的嗜好モデルのもとではコンドルセのサイクルが指数的に速く確率1へ収束して現れるため、RLHFのような報酬ベース手法では一般に人間の嗜好を完全に整合させることが不可能であることを示唆している。
- さらに非報酬型アプローチを扱い、アラインされたLLMが単一応答に崩れず「混合戦略」を取る条件を解析し、「過半数が他の全てよりも好む応答が存在しないこと」を混合戦略の必要十分条件として特定した。
- その条件はLuceモデル下で高確率で成り立つことも証明されており、明示的な正則化なしでも少数者の嗜好を保つことが統計的に可能になり得る点を示している。


