Abstract
大規模ビジョン・言語モデル(LVLMs)は、その能力の拡張に伴い、新たな活躍の場を一貫して必要としますが、双曲グラフ(ハイパーグラフ)に関する能力は未踏のままです。現実世界では、ハイパーグラフは生命科学やソーシャルコミュニティといった領域で、重要な実用的応用を持っています。LVLMsの最近の進歩は複雑なトポロジーの理解に有望であることを示してきましたが、それでもなお、ハイパーグラフに対するLVLMsの能力を明確にするためのベンチマークが欠けており、能力の境界が不明確なままです。このギャップを埋めるために、本論文では、ハイパーグラフの理解と推論におけるLVLMsの習熟度を評価する最初のベンチマークである exttt{HyperGVL} を提案します。 exttt{HyperGVL} は、12のタスクにまたがる84,000のビジョン・言語質問応答(QA)サンプルについて、基礎的な構成要素の数え上げから、複雑なNP困難問題の推論までを含む12の先進的なLVLMsを対象に、包括的な評価を提供します。対象となるハイパーグラフには、マルチスケールな合成構造と、実世界の引用ネットワークおよびタンパク質ネットワークが含まれます。さらに、12種類のテキストおよび視覚的なハイパーグラフ表現の効果を調査し、適応的な表現を学習することで、ハイパーグラフを通じてLVLMsを改善する一般化可能なルータ exttt{WiseHyGR} を導入します。本研究は、ハイパーグラフとLVLMsを結び付ける上で一歩前進であると考えています。