視覚言語モデル埋め込みにおけるセマンティック階層の説明・検証・整合

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

クラスタリングとコンセプトバンクのマッチングを用いて、クラス重心からセマンティック階層を抽出し命名する、視覚言語モデルの埋め込み空間向けの事後（post-hoc）フレームワークを提案する。
導出された階層が人間のオントロジーと整合しているかどうかを検証するための定量的方法を導入する。具体的には、木構造／辺の一貫性指標と、不確実性を考慮した階層推論により有用性を評価する。
オントロジーに導かれた事後整合アプローチを提示する。埋め込み空間の軽量な変換を学習し、UMAPを用いて目標となる近傍が望ましい階層に向くように形づくる。
13の事前学習済みVLMと4つのデータセットにまたがって、体系的なモダリティ効果を見出す。画像エンコーダは識別性が高い傾向があり、一方でテキストエンコーダは人間のタクソノミーによりよく一致する階層を生成する。
ゼロショット精度とオントロジー的妥当性の間に観測されたトレードオフを強調し、共有された画像—テキスト埋め込みにおけるセマンティック整合性を改善するための方策を示す。