HyperGVL:ハイパーグラフ理解・推論における大規模視覚言語モデルのベンチマークと改善

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、大規模視覚言語モデル(LVLM)を対象に「ハイパーグラフの理解と推論」を評価するための初のベンチマークHyperGVLを提案しています。
  • HyperGVLは、12の高度なLVLMを、12タスク(基本的な構成要素の数え上げからNP困難クラスの複雑な推論まで)にまたがる8.4万件のビジョン・言語QAサンプルで評価します。
  • ベンチマークには、多尺度の合成ハイパーグラフ構造に加えて、実世界の引用ネットワークやタンパク質ネットワークも含め、実運用に近い状況を反映しています。
  • 12種類のテキスト/視覚的なハイパーグラフ表現が性能に与える影響を分析し、適応的な表現を学習してLVLMのハイパーグラフ性能を高める汎用ルータWiseHyGRも導入しています。
  • 全体として本研究は、ハイパーグラフに対するLVLMの能力の境界を明確にし、ハイパーグラフモデリングと視覚言語推論の連携を強めることを狙っています。

Abstract

大規模ビジョン・言語モデル(LVLMs)は、その能力の拡張に伴い、新たな活躍の場を一貫して必要としますが、双曲グラフ(ハイパーグラフ)に関する能力は未踏のままです。現実世界では、ハイパーグラフは生命科学やソーシャルコミュニティといった領域で、重要な実用的応用を持っています。LVLMsの最近の進歩は複雑なトポロジーの理解に有望であることを示してきましたが、それでもなお、ハイパーグラフに対するLVLMsの能力を明確にするためのベンチマークが欠けており、能力の境界が不明確なままです。このギャップを埋めるために、本論文では、ハイパーグラフの理解と推論におけるLVLMsの習熟度を評価する最初のベンチマークである exttt{HyperGVL} を提案します。 exttt{HyperGVL} は、12のタスクにまたがる84,000のビジョン・言語質問応答(QA)サンプルについて、基礎的な構成要素の数え上げから、複雑なNP困難問題の推論までを含む12の先進的なLVLMsを対象に、包括的な評価を提供します。対象となるハイパーグラフには、マルチスケールな合成構造と、実世界の引用ネットワークおよびタンパク質ネットワークが含まれます。さらに、12種類のテキストおよび視覚的なハイパーグラフ表現の効果を調査し、適応的な表現を学習することで、ハイパーグラフを通じてLVLMsを改善する一般化可能なルータ exttt{WiseHyGR} を導入します。本研究は、ハイパーグラフとLVLMsを結び付ける上で一歩前進であると考えています。

HyperGVL:ハイパーグラフ理解・推論における大規模視覚言語モデルのベンチマークと改善 | AI Navigate