半教師ありビジョン言語学習のためのトポロジー情報を考慮した表現アラインメント
arXiv cs.LG / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ビジョン言語モデルは専門領域への汎化で課題を抱えることがあり、半教師ありの既存手法でもマルチモーダル表現マニフォールドのグローバル構造を十分に捉えられていない。
- 本論文では、永続ホモロジー(persistent homology)で重要なトポロジー特徴を抽出し、画像とテキストの対応関係を手掛かりにモダリティ間で整合させる枠組み「ToMA(Topology-Aware Multimodal Representation Alignment)」を提案する。
- ToMAは、連結性を表すH0-deathエッジと、サイクル構造などの高次情報を捉える軽量なH1-birthエッジの両方を整列に用い、2-シンプレックスの構築は行わない。
- 実験では安定した改善が確認され、特にリモートセンシングで明確に向上し、ファッショントランザクションでは控えめながら一貫した効果が得られた。
- 追加分析として、ToMAは他のトポロジーベース目的よりも安定性が高く、軽量H1-birthエッジが高次の構造シグナルとして有用であることが示されている。



