バランスの取れたDirect Preference Optimizationによる安全性アラインメントの改善

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、安全性アラインメントのための人気の代替手法であるDirect Preference Optimization（DPO）が、実世界での安全性パフォーマンスを損なう深刻な過学習に依然として陥り得る理由を検討する。
それを特定するために、嗜好対（preferred vs. dispreferred）における「不均衡な嗜好理解（Imbalanced Preference Comprehension）」という課題を見出し、モデルの好ましい応答と好ましくない応答の理解が偏ってしまうことで安全性が劣化することを示す。
これを軽減するために、著者らは相互情報量を用いて、好ましい応答と好ましくない応答の間で最適化の強さを適応的に調整するBalanced Direct Preference Optimization（B-DPO）を提案する。
実験では、B-DPOにより安全能力が向上する一方で、主要ベンチマークにおいて最先端の手法に対して競争力のある汎用言語能力が維持されることが報告される。
本研究には有害なテキスト例が含まれており、安全性に焦点を当てた分析と結果であることを強調している。

要旨: 大規模言語モデル（LLM）の急速な発展と広範な適用に伴い、その潜在的な安全リスクが広く注目を集めている。LLMの安全性能を高めるために、人間からのフィードバックによる強化学習（RLHF）が採用されてきた。RLHFの単純で効果的な代替として、直接嗜好最適化（Direct Preference Optimization; DPO）は安全アラインメントに広く用いられている。しかし、安全アラインメントは依然として深刻な過学習に悩まされており、実際の性能を制限している。本論文では、学習データに対するモデルの理解という観点から、過学習現象を改めて検討する。嗜好ペアにおける応答間に、「嗜好の偏りに基づく理解（Imbalanced Preference Comprehension）」という現象が存在し、それがモデルの安全性能を損なっていることを見出す。これに対処するために、相互情報量に基づいて、好ましい応答と好ましくない応答の間で最適化の強度を適応的に調整する、バランス直接嗜好最適化（Balanced Direct Preference Optimization; B-DPO）を提案する。一連の実験結果により、B-DPOは、最先端手法と比較して、さまざまな主要ベンチマークにおいてLLMの競争力のある汎化能力を維持しつつ、安全能力を向上できることを示す。 \color{red}{警告: 本論文には有害な文章の例が含まれており、閲覧には注意が推奨される。