クロスモーダル表現のスペクトル幾何学について:マルチモーダル整合のための機能写像ダイアグノスティック
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ラプラシアン固有基底上での機能写像(functional map)フレームワークを用いて、独立に事前学習された視覚(DINOv2)エンコーダと、言語(all-MiniLM-L6-v2)エンコーダの間のクロスモーダル整合を分析する。
- 観測されたのは、機能写像による手法が、監督(supervision)予算の異なる状況におけるクロスモーダル検索では、Procrustes整合や相対表現(relative representations)といったより単純なベースラインに劣るという点である。
- 検索性能で劣る一方で、著者らは両エンコーダのラプラシアン固有値スペクトルが定量的に同程度であることを測定している(正規化されたスペクトル距離 0.043)。これは、内在するマニフォールドの複雑さが同程度であることを示唆する。
- しかし機能写像では、対角優位性がほぼゼロであり、高い直交性誤差(70.15)が示される。これは、固有ベクトル基底の向き(orientation)が実質的に食い違っていることを意味する。
- 本研究では「スペクトル複雑さ–配向ギャップ(spectral complexity–orientation gap)」という概念を導入し、対角優位性、直交性偏差、ラプラシアン可換性誤差(Laplacian commutativity error)という診断指標を提案して、クロスモーダル表現の適合性を特徴付ける。




