ロジット空間におけるシャープネス認識最小化がDirect Preference Optimizationを効率的に強化する

arXiv cs.LG / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、Direct Preference Optimization (DPO) における絞り込み現象を特定し、訓練中に好ましい応答の確率がロジット空間の高曲率方向と負の勾配更新により低下することを示している。
ロジット空間の座標ごとのダイナミクスをモデル化する理論的枠組みを構築し、残差が高曲率方向に沿って拡張する様子が絞り込み現象の根底にあることを説明する。
著者らは、シャープネス認識最小化（SAM）が曲率正則化を介してこの挙動を抑制できることを実証し、出力層のみを摂動させる計算効率の高い変種であるlogits-SAMを導入する。
Pythia-2.8B、Mistral-7B、Gemma-2B-IT における実験は、logits-SAM がDPOの有効性を一貫して向上させ、既存のDPO系変種と組み合わせ可能であることを示しており、GitHubにコードが公開されている。

要約: Direct Preference Optimization (DPO) は、そのシンプルさとトレーニングの安定性のおかげで、人間の好みに合わせて事前学習済みの大規模言語モデルを整合させるための人気のあるアルゴリズムとして浮上しています。しかし、DPO は最近特定された絞り込み効果（別名「尤度の変位」）に悩まされており、学習中に好ましい応答の確率が意図せず低下します。この現象を理解し緩和するために、対数ロジット空間における座標ごとのダイナミクスをモデル化する理論的枠組みを開発します。私たちの分析は、負の勾配の更新が高い曲率方向に沿って残差を急速に拡大させ、これが絞り込み効果の根底にあることを明らかにします。一方、Sharpness-Aware Minimization (SAM) はその曲率正則化効果を通じてこの挙動を抑制することができます。この洞察に基づき、出力層のみを僅かなオーバーヘッドで攪乱する計算効率の高い派生形である logits-SAM を検討します。 Pythia-2.8B、Mistral-7B、Gemma-2B-IT の複数のデータセットとベンチマークにまたがる広範な実験は、logits-SAM が DPO の有効性を一貫して向上させ、他の DPO バリアントと整合的に統合されることを示しています。コードは https://github.com/RitianLuo/logits-sam-dpo にあります。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

ロジット空間におけるシャープネス認識最小化がDirect Preference Optimizationを効率的に強化する

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer