DynamicPO:レコメンドのためのダイナミック・プレファレンス・オプティマイゼーション

arXiv cs.AI / 2026/5/4

💬 オピニオンTools & Practical UsageModels & Research

要点

  • この論文では、LLMベースのレコメンドにおいてDPO(Direct Preference Optimization)で負例(ネガティブサンプル)の数を増やすと、学習損失は下がり続けるにもかかわらず性能が悪化し得るという逆説的な現象を示します。
  • その「preference optimization collapse(選好最適化の崩壊)」の原因として、勾配が抑制され、簡単に識別できる負例が支配して、ユーザーの選好境界を本当に定義する境界付近の重要な負例が十分に最適化されない点を挙げています。
  • 問題の解決として、DynamicPO(Dynamic Preference Optimization)という軽量でプラグアンドプレイ可能な枠組みを提案し、モデルの意思決定境界近くの情報量の多い負例を優先する「Dynamic Boundary Negative Selection」を導入します。
  • さらに「Dual-Margin Dynamic beta Adjustment」により、境界の曖昧さに応じてサンプルごとの最適化強度を調整します。
  • 3つの公開データセットでの実験では、DynamicPOが最適化の崩壊を防ぎ、マルチネガティブの嗜好最適化手法でレコメンド精度を改善しつつ、計算オーバーヘッドはほぼ無視できることが示されています。

Abstract

大規模言語モデル(LLM)に基づく推薦システムにおいて、直接嗜好最適化(DPO)は、推薦をユーザの嗜好に効果的に整合させる一方で、豊富な暗黙フィードバックのネガティブを活用し、嗜好境界を鋭くするために、多重ネガティブの目的関数が必要となります。しかし、我々の実証的な分析によって、直感に反する現象である「嗜好最適化の崩壊」が明らかになりました。すなわち、負例(ネガティブ・サンプル)の数を増やすことで、学習損失は継続的に減少しているにもかかわらず、性能が低下し得るというものです。さらに我々は、理論的にも、この崩壊が「勾配抑制」によって生じることを示します。これは、真にユーザの嗜好境界を定義する境界にとって重要なネガティブがあるにもかかわらず、容易に識別可能なネガティブが支配的になり、その結果として境界に関わる学習信号が十分に最適化されなくなるためです。その結果、モデルの意思決定境界が弱まります。これらの観察に動機づけられ、軽量でプラグアンドプレイ可能な枠組みであるDynamicPO(Dynamic Preference Optimization)を提案します。DynamicPOは、2つの適応的メカニズムから成るフレームワークであり、以下を含みます。1つ目は、モデルの意思決定境界の近傍にある情報量の多いネガティブを特定して優先順位付けするDynamic Boundary Negative Selection(動的境界ネガティブ選択)です。2つ目は、境界の曖昧さに応じてサンプルごとに最適化の強さを調整するDual-Margin Dynamic beta Adjustment(デュアル・マージン動的ベータ調整)です。3つの公開データセットに対する大規模な実験により、DynamicPOが最適化の崩壊を効果的に防ぎ、多重ネガティブ嗜好最適化手法における推薦精度を改善すること、そして計算オーバーヘッドがほとんど無視できることを示します。コードとデータセットは https://github.com/xingyuHuxingyu/DynamicPO で利用可能です。