クロスモーダル表現のスペクトル幾何学について:マルチモーダル整合のための機能写像ダイアグノスティック

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ラプラシアン固有基底上での機能写像(functional map)フレームワークを用いて、独立に事前学習された視覚(DINOv2)エンコーダと、言語(all-MiniLM-L6-v2)エンコーダの間のクロスモーダル整合を分析する。
  • 観測されたのは、機能写像による手法が、監督(supervision)予算の異なる状況におけるクロスモーダル検索では、Procrustes整合や相対表現(relative representations)といったより単純なベースラインに劣るという点である。
  • 検索性能で劣る一方で、著者らは両エンコーダのラプラシアン固有値スペクトルが定量的に同程度であることを測定している(正規化されたスペクトル距離 0.043)。これは、内在するマニフォールドの複雑さが同程度であることを示唆する。
  • しかし機能写像では、対角優位性がほぼゼロであり、高い直交性誤差(70.15)が示される。これは、固有ベクトル基底の向き(orientation)が実質的に食い違っていることを意味する。
  • 本研究では「スペクトル複雑さ–配向ギャップ(spectral complexity–orientation gap)」という概念を導入し、対角優位性、直交性偏差、ラプラシアン可換性誤差(Laplacian commutativity error)という診断指標を提案して、クロスモーダル表現の適合性を特徴付ける。

Abstract

計算幾何学の分野で用いられる機能写像(functional map)フレームワークを用いて、独立に事前学習された視覚エンコーダ(DINOv2)と、言語エンコーダ(all-MiniLM-L6-v2)との間のクロスモーダルアライメントを研究します。このフレームワークは、グラフラプラシアン固有ベース間におけるコンパクトな線形作用素として、表現マニフォールド間の対応関係を表現します。提案フレームワークは、クロスモーダル検索においてあらゆる監督(supervision)の予算に対して、プロクルステス(Procrustes)アライメントや相対表現(relative representations)より性能が劣る一方で、多モーダル表現に固有の構造的性質を明らかにします。2つのエンコーダのラプラシアン固有値スペクトルは定量的に非常に近いことを見出しました(正規化スペクトル距離 0.043)。これは、独立に学習されたモデルが、同等の内在的複雑さをもつマニフォールドを発達させていることを示します。しかし、機能写像は対角優勢がほぼゼロであること(平均が 0.05 未満)と、大きな直交性誤差(70.15)を示します。これは、固有ベクトルの基底が実質的に整列(アライメント)されていないことを意味します。私たちはこの分離を「スペクトル複雑さ—オリエンテーション・ギャップ」と呼びます。モデルは、どれだけの構造を捉えるかという点では収束するが、それをどのように配置(オーガナイズ)するかでは一致しないのです。このギャップは、スペクトル・アライメント手法に対する境界条件を定義し、クロスモーダル表現の適合性を特徴づけるための3つの診断量、すなわち対角優勢、直交性偏差、ラプラシアン可換性誤差を動機づけます。