CrossFlowDG:クロスモーダル・フローマッチングでモダリティギャップを埋め、ドメイン汎化を実現する
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ドメイン汎化(DG)はドメインシフト下でも性能を維持することを目的としており、視覚分野ではスタイルの違いが主因となってモデルがクラス意味論よりもドメイン固有の見た目特徴に過学習しがちです。
- 既存のマルチモーダルDG手法ではテキスト表現を安定した不変アンカーとして使う一方で、コサイン類似度ベースのコントラスト整列だと「モダリティギャップ」により、意味対応があるのに画像とテキストの埋め込みが幾何学的に離れてしまう課題があります。
- CrossFlowDGは、ノイズフリーのクロスモーダル・フローマッチングにより、共同のユークリッド潜在空間で連続変換を学習し、正しいクラスのドメイン不変なテキスト埋め込みへ向けて、ドメイン偏りを持つ画像埋め込みを明示的に輸送します。
- VMambaの画像エンコーダとCLIPのテキストエンコーダを用いて4つのDGベンチマークで評価し、複数で競争力のある性能を示しつつ、TerraIncognitaでは最先端の性能を報告しています。
- 実装コードはGitHubで公開されています。




