コンテンツベースの音楽レコメンドを見直す：大規模音楽モデルからの効率的な特徴量集約

arXiv cs.AI / 2026/4/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

その論文は、従来の協調フィルタリングが音声コンテンツを十分に活用できず、特にコールドスタートで性能が低下すると主張しています。
TASTEという新しいデータセットとベンチマーク枠組みを提案し、生オーディオとテキストのメタデータを組み合わせてマルチモーダルな音楽レコメンド研究をより実現しやすくしています。
大規模な自己教師あり音楽エンコーダを用いて、学習済みの音声表現が、候補リコールやCTRといったタスクで推薦結果を大きく改善することを示しています。
MuQ-tokenという、複数層の音声特徴を効率的に集約する手法を提案し、複数の条件で他の特徴統合手法より一貫して優れていることを報告しています。
これらのマルチモーダルなベンチマークとコード公開を、今後のコンテンツベース／マルチモーダルなレコメンダ研究の再利用可能な基盤として位置づけています。

要旨: 音楽レコメンドシステム（MRS）は、現代のストリーミングプラットフォームにおける基盤的存在である。検索（recall）段階とランキング（ranking）段階の両方にまたがる既存のレコメンドモデルは、主として協調フィルタリングに依存しているが、音声の本質的な特性を活用できないため、特にコールドスタートの状況では、性能が十分に高くならない。さらに、既存の音楽レコメンド用データセットは、生の音声信号や記述的なテキストメタデータといった豊富なマルチモーダル情報を欠いていることが多い。加えて、現在のレコメンダシステムの評価フレームワークは不十分であり、マルチモーダル情報を十分に活用せず、また多様なアルゴリズム、特にマルチモーダル手法を幅広くサポートしていない。これらの制約に対処するため、我々は音楽推薦におけるマルチモーダル情報の役割を際立たせることを目的とした、包括的なデータセットおよびベンチマークフレームワークである TASTE を提案する。本データセットは、音声とテキストの両方のモダリティを統合する。近年の大規模自己教師あり音楽エンコーダを活用することで、候補のリコールやCTRを含む、レコメンドタスクにおいて抽出した音声表現が大きな価値を持つことを示す。さらに、多層の音声特徴をより効率的に統合できる
\textbf{MuQ-token} 手法を導入する。この手法は、さまざまな設定において一貫して他の特徴統合手法を上回る。全体として、我々の結果はコンテンツ駆動型アプローチの有効性を裏付けるだけでなく、将来の研究のための非常に効果的で再利用可能なマルチモーダル基盤も提供する。我々のコードは https://github.com/zreach/TASTE で公開している