要旨: 大規模マルチモーダルモデル(LMM)によって駆動される統合マルチモーダル検索(UMR)では大きな進展があったにもかかわらず、既存の埋め込み手法は主にコントラスト学習によるサンプルレベルの目的に焦点を当てており、重要なサブジェクト(対象)レベルの意味論を見落としています。この制約により、複雑なマルチモーダルクエリにおいて意味的に整合した対象をグループ化するモデルの能力が妨げられ、意味アライメントの逸脱が生じます。これは、モデルが視覚コンテンツ内のテキストが指す重要領域を正確に局在化できないことを意味します。さらに、重要な視覚的対象をモデル化するための明示的な指導がない場合、LMMはテキストの手がかりに過度に依存しがちとなり、その結果、視覚モダリティが軽視され、視覚知識の利用が最適でなくなります。そこで本研究では、注意(サリエンシー)を考慮したサブジェクト対応マルチモーダル埋め込み(Salient Subject-Aware Multimodal Embedding: SSA-ME)を提案します。これは、注意に基づくモデリングによって微細な表現学習を強化することを目的とした新しい枠組みです。SSA-MEは、LMMと視覚の専門家を活用して画像とテキストのペアから重要な視覚概念を特定し、強調するとともに、サリエンシーに導かれた目的関数を導入し、意味的に有意な領域と整合するようにクロスモーダルの注意をより適切に一致させます。加えて、特徴再生成モジュールが導出されたサリエンシーマップに基づいて視覚特徴を再調整し、モダリティ間でバランスが取れ、意味的に整合した統合を保証します。大規模な実験により、本手法がMMEBベンチマークで最先端の性能を達成し、対象レベルのモデリングを取り入れることでマルチモーダル検索が大幅に改善されることを示します。包括的な定性的分析により、さらに本アプローチの解釈可能性と有効性が明らかになります。
大規模マルチモーダルモデルにおける視覚的ネグレクトとセマンティックドリフトへの対処:強化されたクロスモーダル検索のために
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の統一マルチモーダル検索では大規模マルチモーダルモデルが主にサンプル単位の目的を最適化し、複雑なマルチモーダルクエリで必要となる被写体(サブジェクト)単位のセマンティクスを見落としがちだと指摘しています。
- その結果として、テキストが指す領域の局所化に失敗する「セマンティックアラインメントのずれ」や、視覚情報を使わずテキストに過度に依存する「視覚モダリティのネグレクト」といった問題が生じると述べています。
- 著者らは、画像–テキストのペアから重要な視覚概念を特定するためにLMMと視覚エキスパートを用い、セマンティックに意味のある領域へ注意を合わせる「サリエント被写体対応マルチモーダル埋め込み(SSA-ME)」を提案しています。
- さらに、サリエンシーマップに基づいて視覚特徴を再調整する「特徴再生成モジュール」を導入し、モダリティ間の統合をバランス良く、意味的に一貫させることを狙っています。
- MMEBベンチマークで提案手法が最先端性能を達成し、定性的分析でも解釈可能性と有効性の向上が示されたと報告しています。



