SmoGVLM:小型のグラフ拡張ビジョン・ランゲージモデル
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、グラフニューラルネットワークを用いて構造化された知識を視覚と言語のモダリティに統合する、小型のビジョン・ランゲージモデル「SmoGVLM」を提案する。
- 大規模VLMが抱えがちな幻覚や、知識を要する推論に対する根拠付けの弱さに取り組むことを目的としている。
- 著者らは、モデル規模(1.3B〜13B)を幅広く変えて評価し、グラフ拡張型の学習が性能のスケーリングに与える影響を検証する。
- 結果として、SmoGVLMの小型モデルは最大16.24%の性能向上を示し、より大きいVLMや強力な微調整ベースラインを上回ることが報告されている。
- 構造化知識の拡張は、非常に大きなモデルに依存せずに効率的な小型マルチモーダル推論システムを実現し得ることを示唆している。




