マルチモーダルデータの階層的コントラスト学習

arXiv stat.ML / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なマルチモーダルの「共有 vs 個別」表現学習は単純すぎると主張する。すなわち、多くの潜在因子は全てのモダリティにまたがって共有されるのではなく、それらのモダリティの部分集合に限ってのみ共有されている場合がある。
  • 階層的コントラスト学習(HCL)を提案し、階層的な潜在変数の定式化と構造的スパース性により、グローバルに共有される因子、部分的に共有される因子、そしてモダリティ固有の因子を捉える統一的な表現セットを学習する。
  • HCLは、潜在因子を本当に共有しているモダリティ対のみを整合させる、構造を考慮したコントラスト目的関数を用い、無関係な信号の過度な整合(オーバーアラインメント)を避けることを狙う。
  • 潜在変数が相関しないという仮定のもとで、著者らは識別可能性と回復(recovery)の保証を示し、さらに下流の予測に対するパラメータ推定と過剰リスク(excess-risk)の上界を与える。
  • 実験(シミュレーションおよびマルチモーダル電子健康記録)では、HCLが階層構造をより正確に復元し、より情報量の多い表現を用いることで予測性能が向上することが示される。