概要: マルチモーダル表現は、同一商品の検索などのEコマースのタスクにとって重要です。大規模表現モデル(例: VLM2Vec)は強力なマルチモーダル理解能力を示す一方で、非常に似通った商品を見分けるのに不可欠な、きめ細かな意味理解には苦戦しています。これに対処するために、属性強化によるきめ細かなマルチモーダル表現学習(AFMRL)を提案します。ここでは、商品に関するきめ細かな理解を、属性生成タスクとして定義します。マルチモーダル大規模言語モデル(MLLM)の生成能力を活用して、商品画像とテキストから重要な属性を抽出し、2段階の学習フレームワークによって表現学習を強化します。1) 属性ガイド付きコントラスト学習(AGCL)では、MLLMによって生成された主要属性を画像-テキストのコントラスト学習の訓練プロセスに用い、ハードサンプルを特定し、ノイズを含む誤ったネガティブを除外します。2) 検索に対応した属性強化(RAR)では、属性統合後の表現モデルの改善された検索性能を報酬信号として用い、マルチモーダルの微調整においてMLLMの属性生成を強化します。大規模なEコマースデータセットに対する大規模な実験により、本手法が複数の下流の検索タスクで最先端の性能を達成し、生成モデルを活用してきめ細かな表現学習を前進させる有効性が検証されました。
AFMRL:EC(eコマース)における属性強化型・きめ細かなマルチモーダル表現学習
arXiv cs.CL / 2026/4/23
📰 ニュースModels & Research
要点
- 本論文は、同一商品検索などのECタスクにおける「きめ細かな」マルチモーダル理解を高めるAFMRLを提案する。
- AFMRLは、マルチモーダルLLMを用いて商品画像とテキストから主要な属性を抽出し、細粒度の理解を「属性生成」問題として定式化する。
- 学習は2段階で行い、Attribute-Guided Contrastive Learning(AGCL)で生成された属性を画像—テキストのコントラスト学習に活用して難しいサンプルを重視しつつノイズの多い偽陰性を抑える一方、Retrieval-aware Attribute Reinforcement(RAR)では統合後の検索性能を報酬信号としてマルチモーダル微調整中の属性生成を強化する。
- 大規模なECデータセットでの実験の結果、複数の下流検索タスクで最先端(SOTA)の性能が得られ、生成モデルを細粒度表現学習の前進に活用できることを示している。


