AI Navigate

VLM4Rec: 大規模ビジョン-言語モデルによる推奨のためのマルチモーダル意味表現

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • VLM4Recは、マルチモーダル推奨を単純な特徴融合から意味的整合へ再定義し、各アイテム画像を大規模なビジョン-言語モデルを用いて明示的な自然言語説明へ落とし込みます。
  • その後、これらの意味を密なアイテム表現へエンコードし、推奨のためのプロファイルベースの意味的マッチング機構を用いることで、オフライン・オンライン分解を実現します。
  • 複数のマルチモーダルデータセットでの実験は、VLM4Recが生の視覚特徴および融合ベースのアプローチを一貫して上回ることを示しており、表現の質が融合の複雑さより重要であることを示唆しています。
  • 著者は再現性と実用的な利用を促進するために、コードを https://github.com/tyvalencia/enhancing-mm-rec-sys で公開しています。

要約:マルチモーダル推奨は一般的に特徴融合問題として位置づけられ、テキスト信号と視覚信号を組み合わせてユーザーの嗜好をより適切にモデル化します。しかし、マルチモーダル推奨の有効性は、モダリティがどのように融合されるかだけでなく、アイテム内容が嗜好のマッチングと整合するセマンティック空間で表現されているかどうかにも依存する可能性があります。この問題は特に重要です。生の視覚特徴は外観の類似性を保持することが多い一方で、ユーザーの意思決定はスタイル、素材、および使用状況などのより高次のセマンティック要因によって動機づけられることが多いです。この観察に動機づけられ、我々は LVLM-grounded Multimodal Semantic Representation for Recommendation (VLM4Rec) を提案します。これは直接的な特徴融合ではなく、セマンティック整合を通じてマルチモーダルアイテム内容を整理する軽量なフレームワークです。 VLM4Rec はまず大規模なビジョン-言語モデルを用いて各アイテム画像を明示的な自然言語説明へグラウンド化し、次にグラウンドされたセマンティクスを嗜好指向の検索のための密なアイテム表現へエンコードします。 推奨はその後、履歴アイテム埋め込み上の単純なプロファイルベースのセマンティックマッチング機構を通じて実行され、オフライン・オンライン分解をもたらします。 複数のマルチモーダル推奨データセットにおける広範な実験は、VLM4Rec が生の視覚特徴およびいくつかの融合ベースの代替案よりも一貫して性能を向上させることを示しており、表現品質が融合の複雑さよりも重要である可能性を示唆しています。 コードは https://github.com/tyvalencia/enhancing-mm-rec-sys にて公開されています。