DynamicPO:レコメンドのためのダイナミック・プレファレンス・オプティマイゼーション
arXiv cs.AI / 2026/5/4
💬 オピニオンTools & Practical UsageModels & Research
要点
- この論文では、LLMベースのレコメンドにおいてDPO(Direct Preference Optimization)で負例(ネガティブサンプル)の数を増やすと、学習損失は下がり続けるにもかかわらず性能が悪化し得るという逆説的な現象を示します。
- その「preference optimization collapse(選好最適化の崩壊)」の原因として、勾配が抑制され、簡単に識別できる負例が支配して、ユーザーの選好境界を本当に定義する境界付近の重要な負例が十分に最適化されない点を挙げています。
- 問題の解決として、DynamicPO(Dynamic Preference Optimization)という軽量でプラグアンドプレイ可能な枠組みを提案し、モデルの意思決定境界近くの情報量の多い負例を優先する「Dynamic Boundary Negative Selection」を導入します。
- さらに「Dual-Margin Dynamic beta Adjustment」により、境界の曖昧さに応じてサンプルごとの最適化強度を調整します。
- 3つの公開データセットでの実験では、DynamicPOが最適化の崩壊を防ぎ、マルチネガティブの嗜好最適化手法でレコメンド精度を改善しつつ、計算オーバーヘッドはほぼ無視できることが示されています。



