SmoGVLM：小型のグラフ拡張ビジョン・ランゲージモデル

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、グラフニューラルネットワークを用いて構造化された知識を視覚と言語のモダリティに統合する、小型のビジョン・ランゲージモデル「SmoGVLM」を提案する。
大規模VLMが抱えがちな幻覚や、知識を要する推論に対する根拠付けの弱さに取り組むことを目的としている。
著者らは、モデル規模（1.3B〜13B）を幅広く変えて評価し、グラフ拡張型の学習が性能のスケーリングに与える影響を検証する。
結果として、SmoGVLMの小型モデルは最大16.24%の性能向上を示し、より大きいVLMや強力な微調整ベースラインを上回ることが報告されている。
構造化知識の拡張は、非常に大きなモデルに依存せずに効率的な小型マルチモーダル推論システムを実現し得ることを示唆している。

Abstract

大規模な視覚言語モデル（VLM）はマルチモーダル課題で強力な性能を発揮しますが、しばしば幻覚を起こし、知識集約的な推論において根拠付けが不十分になります。我々はGraph Neural Networksを用いて、構造化された知識を視覚およびテキストのモダリティと統合する、小型のグラフ強化VLMであるSmoGVLMを提案します。提案手法の効果を、1.3Bの小型から13Bの大規模まで、さまざまなモデル規模にわたって調査します。我々の結果は、当該アプローチで学習した場合、小型モデルが最大16.24%の性能向上を達成でき、より大きな対応モデルを上回り、より大きなVLMおよび強力に微調整したベースラインを凌駕することを示しています。これらの結果は、効率的で小規模なマルチモーダル推論システムに対する、構造化された知識の拡張の可能性を示しています。