生成型レコメンドにおける意味ID生成のための、クロスモーダル整合を伴うディープ・インタレスト・マイニング

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成型レコメンドにおける意味ID（SID）生成が抱える課題（セマンティック情報の喪失、カスケード量子化によるセマンティック劣化、テキストと画像のモダリティ不整合）に取り組みます。
提案手法は Deep Contextual Interest Mining（DCIM）、Cross-Modal Semantic Alignment（CMSA）、Quality-Aware Reinforcement Mechanism（QARM）を統合し、文脈を保持しつつ質の高いSIDを生成することを目指します。
CMSAではVision-Language Models（VLMs）を用いて非テキスト・モダリティを統一されたテキストベースの意味空間へ写像し、上流モデルが整合していても起きるモダリティ歪みを抑えます。
DCIMは広告文脈などに暗黙に含まれる高レベルの興味・情報を、復元に基づく教師信号で抽出し、QARMは質を考慮した報酬による強化学習で後段のSID選択を改善します。
実験とアブレーションにより、複数ベンチマークで従来のSID生成手法より一貫して高い性能が得られ、各コンポーネントの有効性も確認されています。

要旨: 生成的レコメンデーション（GR）は、次トークン予測のパラダイムにおいて目覚ましい性能を示してきました。この性能は、Semantic IDs（SIDs）を用いて、1兆規模のデータを学習可能な語彙系列へと圧縮することに依存しています。しかし、既存手法には3つの重要な制約があります。（1）情報劣化: 2段階の圧縮パイプラインにより意味損失と情報劣化が生じ、質の高いSIDと質の低いSIDを区別するための事後（ポステリオル）メカニズムがありません。（2）意味劣化: カスケード化された量子化が、元のマルチモーダル特徴から重要な意味情報を捨て去ります。これは、埋め込み生成と量子化の段階が、統一的な目的に向けて共同最適化されていないためです。（3）モダリティ歪み: 量子化器がテキストと画像のモダリティを適切に整列できず、上流ネットワークがそれらを整列していても特徴の不整合が生じます。これらの課題に対処するために、本研究では、3つの主要な革新を統合した新しい枠組みを提案します。Deep Contextual Interest Mining（DCIM）、Cross-Modal Semantic Alignment（CMSA）、Quality-Aware Reinforcement Mechanism（QARM）です。まず、Vision-Language Models（VLM）を活用して非テキストのモダリティを統一されたテキストベースの意味空間へ整列させ、モダリティ歪みを緩和します。次に、広告文脈に暗黙に含まれる高レベルの意味情報を捉える深い関心マイニング機構を導入し、再構成ベースの教師信号によってSIDが重要な文脈情報を保持することを促します。さらに、第2段階（事後段階）で意味的に豊かなSIDを強め、質の低いSIDを抑制するために、質を考慮した報酬を用いる強化学習の枠組みを採用します。広範な実験により、本手法が複数のベンチマークで優れた性能を達成し、SID生成の最先端手法を一貫して上回ることが示されます。アブレーション研究は、提案した各コンポーネントの有効性をさらに検証します