マルチモーダル構造学習：クロスモーダル・グラフィカル・ラッソによる共有トポロジーと固有トポロジーの分離

arXiv cs.CV / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高次元ノイズやモダリティの位置ずれ（ミスアラインメント）下で、異種の視覚特徴と言語特徴の間における条件付き依存関係を推定することに焦点を当て、解釈可能なマルチモーダル表現の学習における課題に取り組む。
視覚とテキストの特徴を共有潜在空間へ整合させるために、統一型の視覚-言語エンコーダとテキスト-視覚化戦略を用いて、Cross-Modal Graphical Lasso（CM-GLasso）を提案する。
CM-GLassoは、画像の高次元パッチを意味的ノードへ変換するクロス注意蒸留メカニズムを追加し、より良い構造学習のための空間対応型クロスモーダル事前分布を生成する。
本手法は、個別に調整したグラフィカル・ラッソ推定を、Common-Specific Structure Learning（CSSL）と共同で統合し、ADMMによって統合目的を最適化することで、手順をまたいだ誤差の累積を防ぎつつ、不変（共有）なトポロジーとカテゴリ固有のトポロジーを分離する。
8つの自然系および医療系ベンチマークでの実験により、生成分類および密なセマンティックセグメンテーション課題において最先端の性能を報告している。

日経XTECH

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to