要旨: 好みに基づくアライメント目的は、LLMにおけるRLHFスタイルのペアワイズ学習から、レコメンダシステムにおける新たな応用まで、広く採用されてきました。しかし、既存研究の多くは、観測されていないアイテムが信頼できる負例ではない暗黙フィードバックのもとで、ダイレクト・プリファレンス・オプティマイゼーション(DPO)がどのように振る舞うかをほとんど検討していません。私たちは、多モーダルの逐次レコメンデーションに関して体系的な実験を行い、一般的なネガティブ選択戦略とそれらがDPO学習と相互作用する様子を比較します。中心的な発見は、決定論的なハードネガティブを、動的なトップK候補プールからの確率的サンプリングに置き換えるという単純な修正が、ランキング性能を一貫して改善することです。効果の要因は2つあります。 (1) 偽の負例によって引き起こされる誤った抑制的勾配を減らすこと、そして (2) 制御された確率性によって最適化を滑らかにしつつ、情報量のあるハードなシグナルを保持することです。効率的なキャパシティ拡張のための、オプションの疎なMixture-of-Expertsエンコーダを用いることで、RoDPOは3つのAmazonベンチマークにおいて最大5.25%のNDCG@5を達成し、推論コストはほぼ変わりません。
疎なMoEによる頑健な直接嗜好最適化でマルチモーダル逐次推薦を整合させる
arXiv cs.CL / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、観測されていないアイテムを信頼できない負例とみなす暗黙フィードバックの下で、マルチモーダル逐次推薦に対してDirect Preference Optimization(DPO)がどのように機能するかを研究する。
- 決定論的なハード負例を、動的なtop-K候補プールからの確率的サンプリングに置き換えることで、ランキング精度が一貫して改善することを見出す。
- この改善は、偽の負例によって生じる有害な勾配を低減しつつ、有用なハードなシグナル情報を保持し、制御されたランダム性によって学習を平滑化することに起因すると説明される。
- 任意の疎なMixture-of-Experts(MoE)エンコーダを用いることで、提案手法RoDPOは、推論コストをほぼ変えずに3つのAmazonベンチマークで最大5.25%のNDCG@5向上を達成する。



