広告

合成的な視覚言語理解のための推論時における構造的推論

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルに共通する失敗パターン、すなわちキャプションが同じ語を用いているのに関係(リレーション)の構造が異なる場合の合成的推論を対象とする。
  • Winogroundベンチマークにおいて、4種類の多様なVLM(CLIP、BLIP、LLaVA、Qwen3-VL-8B-Thinking)を、素の設定とシーングラフ拡張を用いた設定の両方で評価し、さらに拡張も行う。
  • 提案手法のTextSceneGraphParserはspaCyを用いて、依存関係に基づく主語–関係–目的語のトリプルを抽出する。Graph Asymmetry Scorerは、最適な二部マッチングを用いて、推論時に構造的な関係プライア(事前知識)を注入する。
  • キャプションのアブレーション(主語・目的語のマスク/入れ替え)により、Qwen3-VL-8B-Thinkingがグループスコア62.75を達成することが示される。さらにマルチターンのシーングラフ・フィルタリングを加えることで66.0まで改善し、先行するオープンソースの結果を上回る。
  • 著者らは拡張のトレードオフを分析し、シーングラフ拡張はすでに強いモデルには有効である一方、弱いベースラインでは無視できる、あるいは負の改善すらもたらすことを見出す。

Abstract

画像-テキスト検索では優れた性能を発揮するビジョン言語モデル(VLMs)も、構成的推論においては一貫して失敗し続けています。具体的には、同じ単語を含むキャプションでも、関係構造が異なるものを区別できません。そこで本稿では、4種類の構造的に多様なVLM、すなわち CLIP、BLIP、LLaVA、Qwen3-VL-8B-Thinking を、素の条件とシーングラフ拡張を施した条件のもとで、Winoground ベンチマーク上で評価・拡張する統一的な枠組みを提示します。依存関係ベースの TextSceneGraphParser(spaCy)を導入し、主語-関係-目的語のトリプルを抽出します。さらに、最適な二部マッチングを用いる Graph Asymmetry Scorer により、構造的な関係の事前知識を注入します。キャプションのアブレーション実験(主語-目的語のマスキングおよび入れ替え)により、Qwen3-VL-8B-Thinking がグループスコア 62.75 を達成し、エンコーダベースの全モデルを大きく上回ることを示します。また、提案するマルチターン SG フィルタリング戦略により、さらに 66.0 まで引き上げられ、先行するオープンソースの最先端を上回ります。能力拡張におけるトレードオフを分析すると、SG 拡張はすでに能力の高いモデルには有益である一方、より弱いベースラインに対しては、無視できる、あるいは負の利得しかもたらさないことが分かります。コード: https://github.com/amartyacodes/Inference-Time-Structural-Reasoning-for-Compositional-Vision-Language-Understanding

広告