MOON3.0：EC向けプロダクト理解のための推論を意識したマルチモーダル表現学習

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、グローバル埋め込み特徴の抽出を超えてEC向けプロダクト理解を向上させることを目的とした、推論を意識したマルチモーダル表現学習モデル「MOON3.0」を提案する。
既存のMLLMの主要な限界として、長いコンテキストでの推論における注意の希薄化、教師あり微調整による挙動の硬直、順伝播中における微細な情報の減衰に対処することで、それらを改善することを狙う。
MOON3.0は、主に3つの構成要素を用いる。すなわち、マルチヘッドなモダリティ融合、より良い推論戦略を見出すための共同コントラスト学習＋強化学習の枠組み、そして局所的な詳細を保持するための微細粒度レジデュアル強化モジュールである。
著者らは、新たな大規模マルチモーダルECベンチマーク（MBE3.0）を公開し、この新ベンチマークおよび公開データセットの複数の下流タスクにおいて、最先端のゼロショット性能を報告している。

Abstract

電子商取引の急速な成長に伴い、タスク固有の表現ではなく一般的な表現を探ることへの関心が高まっています。近年のマルチモーダル大規模言語モデル（MLLMs）はプロダクト理解において大きな進歩をもたらしてきましたが、通常は特徴抽出器として用いられ、プロダクト情報をグローバル埋め込みへ暗黙的にエンコードするため、きめ細かな属性を捉える能力が制限されます。そこで本研究では、MLLMの推論能力を活用して、きめ細かなプロダクト属性を明示的にモデル化することが大きな可能性を持つと主張します。しかし、この目標の達成は、いくつかの主要な課題のために依然として容易ではありません。（i）長いコンテキストでの推論は、生の入力に含まれる重要情報へのモデルの注意を希釈しがちです。（ii）教師あり微調整（SFT）は主に硬直的な模倣を促すため、効果的な推論戦略の探索が制限されます。（iii）前向き伝播の過程で、きめ細かな詳細が徐々に減衰していきます。これらの問題に対処するため、我々はプロダクト表現学習のための最初の「推論を意識した」MLLMベースモデルであるMOON3.0を提案します。我々の手法は、（1）マルチヘッドのモダリティ融合モジュールを用いて、生の信号を適応的に統合し、（2）共同コントラスト学習と強化学習の枠組みにより、より効果的な推論戦略を自律的に探索し、（3）微細残差強化モジュールを導入して、ネットワーク全体を通じて局所的な詳細を段階的に保持することを行います。さらに、大規模なマルチモーダル電子商取引ベンチマークであるMBE3.0を公開します。実験の結果、我々のモデルは、我々のベンチマークおよび公開データセットの双方において、さまざまな下流タスクで最先端のゼロショット性能を示しました。