要旨: 言語モデルを人間の嗜好に合わせることは、それらの安全性と信頼性を確保するために不可欠である。既存のほとんどのアプローチは、Bradley-Terryモデルのような特定の人間の嗜好モデルを前提としているが、この前提は真の人間の嗜好を正確に捉えられない可能性があり、その結果として、これらの手法は統計的整合性、すなわちサンプル数が増えるにつれて言語モデルが真の人間の嗜好へ収束するという保証を欠いている。これに対して、直接密度比最適化(DDRO)は、人間の嗜好モデルを仮定することなく統計的整合性を達成する。DDROは、言語モデルを用いて嗜好データ分布と非嗜好データ分布の間の密度比をモデル化し、その後に密度比推定によってそれを最適化する。しかし、この密度比は不安定であり、しばしば発散するため、DDROの学習が不安定になる。本論文では、安定でありかつ統計的整合性も満たす新しい整合(alignment)手法を提案する。我々のアプローチは、嗜好データ分布と、嗜好データ分布と非嗜好データ分布の混合との間における相対密度比に基づいている。この相対密度比は上から有界であり、発散しないため、我々のアプローチは安定である。さらに、我々のアプローチは統計的に整合的であり、DDROよりも有意に厳密な収束保証をもたらす。実験により、Qwen 2.5およびLlama 3でその有効性を示す。
安定かつ統計的に整合するモデル整列のための相対密度比の最適化
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Bradley–Terry のような想定された人間の嗜好モデルに基づく一般的な言語モデルの整列手法は、指定が不適切である可能性があり、その結果として真の人間の嗜好と統計的に整合しない恐れがあると主張する。
- DDRO は安定性に欠けると対比されており、推定される密度比が発散して学習を不安定化しうる。これに対して、嗜好データと非嗜好データの混合に基づく、上限付きの「相対密度比」による新しい手法を提案する。
- 提案手法は、相対密度比が上から有界であるため安定であり、かつ統計的に整合するよう設計されており、DDRO よりも厳密な収束保証を提供する。
- Qwen 2.5 および Llama 3 に対する実験結果が、整列設定における本手法の有効性を示すとして報告されている。


