ロジット空間におけるシャープネス認識最小化がDirect Preference Optimizationを効率的に強化する

arXiv cs.LG / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、Direct Preference Optimization (DPO) における絞り込み現象を特定し、訓練中に好ましい応答の確率がロジット空間の高曲率方向と負の勾配更新により低下することを示している。
  • ロジット空間の座標ごとのダイナミクスをモデル化する理論的枠組みを構築し、残差が高曲率方向に沿って拡張する様子が絞り込み現象の根底にあることを説明する。
  • 著者らは、シャープネス認識最小化(SAM)が曲率正則化を介してこの挙動を抑制できることを実証し、出力層のみを摂動させる計算効率の高い変種であるlogits-SAMを導入する。
  • Pythia-2.8B、Mistral-7B、Gemma-2B-IT における実験は、logits-SAM がDPOの有効性を一貫して向上させ、既存のDPO系変種と組み合わせ可能であることを示しており、GitHubにコードが公開されている。

要約: Direct Preference Optimization (DPO) は、そのシンプルさとトレーニングの安定性のおかげで、人間の好みに合わせて事前学習済みの大規模言語モデルを整合させるための人気のあるアルゴリズムとして浮上しています。しかし、DPO は最近特定された絞り込み効果(別名「尤度の変位」)に悩まされており、学習中に好ましい応答の確率が意図せず低下します。この現象を理解し緩和するために、対数ロジット空間における座標ごとのダイナミクスをモデル化する理論的枠組みを開発します。 私たちの分析は、負の勾配の更新が高い曲率方向に沿って残差を急速に拡大させ、これが絞り込み効果の根底にあることを明らかにします。一方、Sharpness-Aware Minimization (SAM) はその曲率正則化効果を通じてこの挙動を抑制することができます。 この洞察に基づき、出力層のみを僅かなオーバーヘッドで攪乱する計算効率の高い派生形である logits-SAM を検討します。 Pythia-2.8B、Mistral-7B、Gemma-2B-IT の複数のデータセットとベンチマークにまたがる広範な実験は、logits-SAM が DPO の有効性を一貫して向上させ、他の DPO バリアントと整合的に統合されることを示しています。 コードは https://github.com/RitianLuo/logits-sam-dpo にあります。

ロジット空間におけるシャープネス認識最小化がDirect Preference Optimizationを効率的に強化する | AI Navigate