AI Navigate

GraphVLM: マルチモーダルグラフ学習のためのビジョン-言語モデルのベンチマーク

arXiv cs.CV / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • GraphVLMは、マルチモーダルグラフ学習のためのビジョン-言語モデルを評価する体系的なベンチマークを提示します。
  • 本研究は、VLM-as-Encoder、VLM-as-Aligner、VLM-as-Predictorという3つの統合パラダイムを検討し、マルチモーダル特徴を融合し、構造化推論のためにモダリティ間を橋渡し、グラフ学習のバックボーンとして機能させます。
  • 6つの多様なデータセットにわたる実験は、VLMが3つの役割すべてでマルチモーダルグラフ学習を向上させることを示し、特にVLM-as-Predictorが最も大きな利得をもたらします。
  • ベンチマークのコードはGitHubで公開されており、研究者が結果を再現し、手法を比較することを可能にします。

要旨:Vision-Language Models(VLMs)は、マルチモーダル信号を整合させ理解する能力を示してきましたが、明示的なリレーショナルグラフを介して結びつけられた構造化データを推論する潜在能力は、まだ十分には探究されていません。この能力を解き放つことは、ソーシャルネットワーク、推奨システム、科学的発見など、マルチモーダル情報が本質的に構造化されている現実世界の応用にとって極めて重要です。このギャップを埋めるために、GraphVLMを提案します。マルチモーダルグラフ学習(MMGL)の能力を評価・活用することを目的とした体系的ベンチマークです。GraphVLM は、VLM をグラフ推論と統合するための3つの補完的なパラダイムを調査します:(1)VLMをエンコードとして、マルチモーダル特徴融合を通じてグラフニューラルネットワークを強化する;(2)VLMをアライナーとして、潜在空間または言語空間でモダリティを橋渡しし、LLMベースの構造推論を促進する;(3)VLMをプレディクターとして、グラフ学習タスクのマルチモーダルバックボーンとして直接VLMを用いる。6つのデータセットにわたる多様なドメインからの広範な実験は、VLMが三つの役割すべてを通じてマルチモーダルグラフ学習を強化することを示しています。これらのパラダイムの中で、VLMをプレディクターとしては最も顕著で一貫した性能向上を達成し、マルチモーダルグラフ学習の新しい基盤としての視覚言語モデルの未開拓の潜在能力を明らかにします。ベンチマークのコードは公開されています。https://github.com/oamyjin/GraphVLM