半教師ありビジョン言語学習のためのトポロジー情報を考慮した表現アラインメント

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ビジョン言語モデルは専門領域への汎化で課題を抱えることがあり、半教師ありの既存手法でもマルチモーダル表現マニフォールドのグローバル構造を十分に捉えられていない。
  • 本論文では、永続ホモロジー(persistent homology)で重要なトポロジー特徴を抽出し、画像とテキストの対応関係を手掛かりにモダリティ間で整合させる枠組み「ToMA(Topology-Aware Multimodal Representation Alignment)」を提案する。
  • ToMAは、連結性を表すH0-deathエッジと、サイクル構造などの高次情報を捉える軽量なH1-birthエッジの両方を整列に用い、2-シンプレックスの構築は行わない。
  • 実験では安定した改善が確認され、特にリモートセンシングで明確に向上し、ファッショントランザクションでは控えめながら一貫した効果が得られた。
  • 追加分析として、ToMAは他のトポロジーベース目的よりも安定性が高く、軽量H1-birthエッジが高次の構造シグナルとして有用であることが示されている。

Abstract

視覚言語モデルは高い性能を示しているものの、専門的な領域に対してはしばしば汎化がうまくいきません。半教師ありの視覚言語学習は、ごく少数のラベル付き画像-テキスト対と大量のラベルなし画像を併用することでこの制限を緩和しますが、既存手法は本質的に対(pairwise)の枠組みにとどまっており、多モーダル表現マニフォールドのグローバルな構造をモデル化できていません。既存のトポロジーに基づくアラインメント手法は永続図(persistance diagram)のマッチングに依存しており、幾何学的なアラインメントを保証せず、また視覚言語学習の中核である画像-テキスト対の情報も活用していません。私たちは、永続ホモロジーを用いてトポロジー的に重要なエッジを同定し、利用可能なクロスモーダル対応関係を通じてモダリティ間でそれらを整列(アライン)させる枠組みである、Topology-Aware Multimodal Representation Alignment(ToMA)を提案します。ToMAは、H_0-death エッジと軽量な H_1-birth エッジの両方を活用することで、2-単体(2-simplices)を構築することなく、接続性とサイクル構造の両方を捉えることができます。実験の結果、ToMAは安定した向上をもたらし、リモートセンシングで明確な改善が見られ、さらにファッション検索でも控えめではあるものの一貫した有益性が示されました。追加分析により、ToMAは他のトポロジーに基づく目的関数よりも安定であり、また軽量な H_1-birth エッジが有用な高次の構造シグナルを提供することが分かりました。