統計的に不可能であること、そしてLLMを人間の嗜好に整合させる可能性:コンドルセのパラドックスからナッシュ均衡へ

arXiv stat.ML / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多様な人間の嗜好にLLMを整合(アライン)させる際の根本的な統計的限界を、嗜好の確率的な表現が学習可能性や公平性に与える影響に焦点を当てて検討している。
  • LLMが生成する応答同士の間にコンドルセのサイクル(循環)が存在しない場合に限り、人間の嗜好は報酬モデルとして表現できることを示し、報酬ベースの整合が満たすべき嗜好の整合条件を明確にした。
  • Luceという確率的嗜好モデルのもとではコンドルセのサイクルが指数的に速く確率1へ収束して現れるため、RLHFのような報酬ベース手法では一般に人間の嗜好を完全に整合させることが不可能であることを示唆している。
  • さらに非報酬型アプローチを扱い、アラインされたLLMが単一応答に崩れず「混合戦略」を取る条件を解析し、「過半数が他の全てよりも好む応答が存在しないこと」を混合戦略の必要十分条件として特定した。
  • その条件はLuceモデル下で高確率で成り立つことも証明されており、明示的な正則化なしでも少数者の嗜好を保つことが統計的に可能になり得る点を示している。

Abstract

多様な人間の嗜好に従って大規模言語モデル(LLM)を整合させることは、これらのモデルを意思決定のために配備する際に、公平性と情報に基づく結果を確実にするために重要である。本論文では、人間の嗜好に対してLLMを整合させることに関する基本的な統計的限界を明らかにすることを目指し、とくに、人間の嗜好の確率的表現と、整合されたLLMにおける多様な嗜好の保存に焦点を当てる。まず、LLMが生成した応答間の嗜好がいかなるコンルセット(Condorcet)サイクルも含まない場合に限り、人間の嗜好は報酬モデルによって表現できることを示す。さらに、Luceモデルと呼ばれる一般的な確率的嗜好モデルのもとで、コンルセットサイクルが指数関数的な速さで確率1に収束する形で存在することを証明する。これにより、強化学習から人間のフィードバックを行うといった報酬ベースの手法によって人間の嗜好を完全に整合させることは不可能であることが示される。次に、Nash学習(人間のフィードバックからのNash学習)といった非報酬ベースのアプローチを用いて極限において整合させた場合に、LLMが混合戦略(単一の応答に崩壊しないこと)を採用する条件を調べる。混合戦略に対する必要十分条件として、「過半数によって他のすべてよりも好まれる応答が存在しないこと」を特定する。幸いにも、この条件はLuceモデルのもとで高い確率で成り立つことを証明し、LLMの整合において明示的な正則化なしに、少数派の嗜好を統計的に保存できる可能性を明らかにする。

統計的に不可能であること、そしてLLMを人間の嗜好に整合させる可能性:コンドルセのパラドックスからナッシュ均衡へ | AI Navigate