合成的な視覚言語理解のための推論時における構造的推論

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルに共通する失敗パターン、すなわちキャプションが同じ語を用いているのに関係（リレーション）の構造が異なる場合の合成的推論を対象とする。
Winogroundベンチマークにおいて、4種類の多様なVLM（CLIP、BLIP、LLaVA、Qwen3-VL-8B-Thinking）を、素の設定とシーングラフ拡張を用いた設定の両方で評価し、さらに拡張も行う。
提案手法のTextSceneGraphParserはspaCyを用いて、依存関係に基づく主語–関係–目的語のトリプルを抽出する。Graph Asymmetry Scorerは、最適な二部マッチングを用いて、推論時に構造的な関係プライア（事前知識）を注入する。
キャプションのアブレーション（主語・目的語のマスク／入れ替え）により、Qwen3-VL-8B-Thinkingがグループスコア62.75を達成することが示される。さらにマルチターンのシーングラフ・フィルタリングを加えることで66.0まで改善し、先行するオープンソースの結果を上回る。
著者らは拡張のトレードオフを分析し、シーングラフ拡張はすでに強いモデルには有効である一方、弱いベースラインでは無視できる、あるいは負の改善すらもたらすことを見出す。

Abstract

画像-テキスト検索では優れた性能を発揮するビジョン言語モデル（VLMs）も、構成的推論においては一貫して失敗し続けています。具体的には、同じ単語を含むキャプションでも、関係構造が異なるものを区別できません。そこで本稿では、4種類の構造的に多様なVLM、すなわち CLIP、BLIP、LLaVA、Qwen3-VL-8B-Thinking を、素の条件とシーングラフ拡張を施した条件のもとで、Winoground ベンチマーク上で評価・拡張する統一的な枠組みを提示します。依存関係ベースの TextSceneGraphParser（spaCy）を導入し、主語-関係-目的語のトリプルを抽出します。さらに、最適な二部マッチングを用いる Graph Asymmetry Scorer により、構造的な関係の事前知識を注入します。キャプションのアブレーション実験（主語-目的語のマスキングおよび入れ替え）により、Qwen3-VL-8B-Thinking がグループスコア 62.75 を達成し、エンコーダベースの全モデルを大きく上回ることを示します。また、提案するマルチターン SG フィルタリング戦略により、さらに 66.0 まで引き上げられ、先行するオープンソースの最先端を上回ります。能力拡張におけるトレードオフを分析すると、SG 拡張はすでに能力の高いモデルには有益である一方、より弱いベースラインに対しては、無視できる、あるいは負の利得しかもたらさないことが分かります。コード: https://github.com/amartyacodes/Inference-Time-Structural-Reasoning-for-Compositional-Vision-Language-Understanding

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

合成的な視覚言語理解のための推論時における構造的推論

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer