要旨: ユニバーサル・マルチモーダル検索(UMR)は、異なるモダリティ(例:視覚とテキスト)を共有埋め込み空間へ写像し、マルチモーダル検索を実現することを目的としています。既存のUMR手法は大きく二つのカテゴリに分類できます。Marvelのようなアーリーフュージョン方式は、視覚特徴を言語モデル(LM)空間へ射影してテキストモダリティと統合します。一方、UniVL-DRのようなレイトフュージョン方式は、視覚入力とテキスト入力を別々のエンコーダでエンコードし、加算によって融合した埋め込みを得ます。私たちの予備調査では、Marvelが視覚モダリティの崩壊を示すことがわかりました。これは、モデルが視覚特徴を無視し、テキスト上の手がかりに過度に依存する傾向を特徴とします。これに対してUniVL-DRはこの問題の影響が比較的小さいものの、埋め込み空間において意味的に関連する内容が大きく離れて配置されるという意味アラインメントの誤り(semantic misalignment)に対してより脆弱です。これらの課題に対処するため、私たちはMiMICを提案します。MiMICは二つの重要な革新を導入します:(1)効果的なマルチモーダル統合のためのデコーダ内フュージョン構造、(2)単一モダリティのミキシンとランダムなキャプション・ドロップアウトによる頑健な学習です。画像が文書中またはクエリ中に存在する一方でキャプションが欠ける可能性があるWebQA+およびEVQA+データセットでの実験により、MiMICがアーリーおよびレイトの両方のフュージョン基準手法を一貫して上回ることが示されました。
MiMIC:セマンティックな不整合を避けつつ、ユニバーサルなマルチモーダル検索における視覚モダリティ・コラプスを軽減する
arXiv cs.CV / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像やテキストなどの異なるモダリティを共通の埋め込み空間に対応づけるユニバーサル・マルチモーダル検索(UMR)を扱います。
- 先行融合(early-fusion)型の手法であるMarvelは、視覚モダリティ・コラプスにより、視覚特徴を無視しテキスト情報に過度に依存する傾向があることを明らかにします。
- 後期融合(late-fusion)型のUniVL-DRはコラプスへの影響が比較的小さい一方で、意味が関連する内容が埋め込み空間で大きく離れてしまうセマンティック不整合が起こり得ると示しています。
- これら2つの問題を同時に緩和するために、MiMICは融合をデコーダ側で行うアーキテクチャと、単一モダリティ・ミキシンやキャプションのランダム・ドロップアウトといった頑健な学習戦略を提案します。
- WebQA+およびEVQA+の実験では、MiMICが初期・後期融合の両ベースラインを一貫して上回り、とくにキャプションが欠ける画像が文書やクエリに含まれる状況で有効であることが示されます。



