疎なMoEによる頑健な直接嗜好最適化でマルチモーダル逐次推薦を整合させる

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、観測されていないアイテムを信頼できない負例とみなす暗黙フィードバックの下で、マルチモーダル逐次推薦に対してDirect Preference Optimization（DPO）がどのように機能するかを研究する。
決定論的なハード負例を、動的なtop-K候補プールからの確率的サンプリングに置き換えることで、ランキング精度が一貫して改善することを見出す。
この改善は、偽の負例によって生じる有害な勾配を低減しつつ、有用なハードなシグナル情報を保持し、制御されたランダム性によって学習を平滑化することに起因すると説明される。
任意の疎なMixture-of-Experts（MoE）エンコーダを用いることで、提案手法RoDPOは、推論コストをほぼ変えずに3つのAmazonベンチマークで最大5.25%のNDCG@5向上を達成する。

要旨: 好みに基づくアライメント目的は、LLMにおけるRLHFスタイルのペアワイズ学習から、レコメンダシステムにおける新たな応用まで、広く採用されてきました。しかし、既存研究の多くは、観測されていないアイテムが信頼できる負例ではない暗黙フィードバックのもとで、ダイレクト・プリファレンス・オプティマイゼーション（DPO）がどのように振る舞うかをほとんど検討していません。私たちは、多モーダルの逐次レコメンデーションに関して体系的な実験を行い、一般的なネガティブ選択戦略とそれらがDPO学習と相互作用する様子を比較します。中心的な発見は、決定論的なハードネガティブを、動的なトップK候補プールからの確率的サンプリングに置き換えるという単純な修正が、ランキング性能を一貫して改善することです。効果の要因は2つあります。 (1) 偽の負例によって引き起こされる誤った抑制的勾配を減らすこと、そして (2) 制御された確率性によって最適化を滑らかにしつつ、情報量のあるハードなシグナルを保持することです。効率的なキャパシティ拡張のための、オプションの疎なMixture-of-Expertsエンコーダを用いることで、RoDPOは3つのAmazonベンチマークにおいて最大5.25%のNDCG@5を達成し、推論コストはほぼ変わりません。

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

Dev.to

詰まったときに自分でツールを書き起こせるAIエージェントを作った

Dev.to

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

Dev.to

[P] フェデレーテッド・敵対的学習

Reddit r/MachineLearning

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

Towards Data Science

疎なMoEによる頑健な直接嗜好最適化でマルチモーダル逐次推薦を整合させる

要点

関連記事

Show HN: 1ビット盆栽 — 最初の商用可能な1ビットLLM

詰まったときに自分でツールを書き起こせるAIエージェントを作った

エージェントの自己発見：AIエージェントが自分の財布を見つける方法

[P] フェデレーテッド・敵対的学習

反転エラー：なぜ安全なAGIには「エナクティブなフロア」と「状態空間の可逆性」が必要なのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer