安定かつ統計的に整合するモデル整列のための相対密度比の最適化

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Bradley–Terry のような想定された人間の嗜好モデルに基づく一般的な言語モデルの整列手法は、指定が不適切である可能性があり、その結果として真の人間の嗜好と統計的に整合しない恐れがあると主張する。
DDRO は安定性に欠けると対比されており、推定される密度比が発散して学習を不安定化しうる。これに対して、嗜好データと非嗜好データの混合に基づく、上限付きの「相対密度比」による新しい手法を提案する。
提案手法は、相対密度比が上から有界であるため安定であり、かつ統計的に整合するよう設計されており、DDRO よりも厳密な収束保証を提供する。
Qwen 2.5 および Llama 3 に対する実験結果が、整列設定における本手法の有効性を示すとして報告されている。

要旨: 言語モデルを人間の嗜好に合わせることは、それらの安全性と信頼性を確保するために不可欠である。既存のほとんどのアプローチは、Bradley-Terryモデルのような特定の人間の嗜好モデルを前提としているが、この前提は真の人間の嗜好を正確に捉えられない可能性があり、その結果として、これらの手法は統計的整合性、すなわちサンプル数が増えるにつれて言語モデルが真の人間の嗜好へ収束するという保証を欠いている。これに対して、直接密度比最適化（DDRO）は、人間の嗜好モデルを仮定することなく統計的整合性を達成する。DDROは、言語モデルを用いて嗜好データ分布と非嗜好データ分布の間の密度比をモデル化し、その後に密度比推定によってそれを最適化する。しかし、この密度比は不安定であり、しばしば発散するため、DDROの学習が不安定になる。本論文では、安定でありかつ統計的整合性も満たす新しい整合（alignment）手法を提案する。我々のアプローチは、嗜好データ分布と、嗜好データ分布と非嗜好データ分布の混合との間における相対密度比に基づいている。この相対密度比は上から有界であり、発散しないため、我々のアプローチは安定である。さらに、我々のアプローチは統計的に整合的であり、DDROよりも有意に厳密な収束保証をもたらす。実験により、Qwen 2.5およびLlama 3でその有効性を示す。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

安定かつ統計的に整合するモデル整列のための相対密度比の最適化

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer