妥協を超えて:効率的な多嗜好LLMアラインメントのためのパレート・レニエント合意

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMに対する現在の多目的嗜好アラインメント手法が、しばしば静的なスカラー化や硬直的な勾配射影を用いており、厳格な対立回避が原因で局所的な停留点に行き詰まることがあると主張する。
  • パレート・レニエント合意(PLC)を提案する。これはゲーム理論に基づく交渉型の枠組みであり、寛容な勾配整流を適用し、「十分な“支配的連合の余剰”」がある場合には、一時的な局所的悪化を許容する。
  • 著者らは、PLCが最適化の膠着状態から抜け出せ、漸近的にパレート合意の平衡へ収束し得ることを示す理論結果を提示する。
  • 実験により、PLCはベースライン手法と比べて、固定嗜好アラインメントの性能と、グローバルなパレートフロンティアの品質の両方を改善することが示される。
  • 本研究は「交渉駆動型アラインメント」を、効率的な多嗜好LLMアラインメントの有望な方向性として位置づけ、再現性のためのコードを公開している。

要旨: 単一の嗜好(プリファレンス)というパラダイムを超え、多様な人間の価値観にLLMを整合させることは、堅牢な導入(デプロイ)にとって極めて重要です。現在のマルチ目的嗜好整合(MPA)アプローチの多くは、静的な線形スカラー化、または厳格な勾配射影によってこれらのトレードオフを扱います。しかし、厳密な対立回避、あるいは同時降下を強制すると、これらのパラダイムはしばしば局所的な停留点へと早期に収束してしまいます。これらの停留点は数学的には安定である一方で、過渡的な局所トレードオフを避けるために、モデルが潜在的な大域的パレート改善を犠牲にする保守的な妥協を表しています。この行き詰まりを打破するために、本研究では、ゲーム理論的枠組みである Pareto-Lenient Consensus(PLC)を提案します。PLCは、整合(アラインメント)を動的な交渉プロセスとして捉え直すものです。硬直的なアプローチと異なり、PLCは合意(コンセンサス)駆動の寛容な勾配整流(レクティファイケーション)を導入します。これは、十分な優勢な連合(ドミナント・コアリション)の余剰が存在する限り、局所的な悪化を動的に許容し、その結果、最適化の軌跡が局所的な劣後(サブオプティマル)な平衡から脱出し、遠方のパレート最適フロンティアを探索できるようにします。理論的解析により、PLCが停滞状態からの脱出を促進し、漸近的にパレート合意(コンセンサス)平衡へ収束できることが検証されます。さらに、大規模な実験により、PLCは固定嗜好による整合と大域的パレート・フロンティアの品質の両方においてベースラインを上回ることが示されます。本研究は、交渉駆動の整合がMPAの有望なアプローチとなり得る可能性を示しています。コードは https://anonymous.4open.science/r/aaa-6BB8 で利用可能です。