合成的な視覚言語理解のための推論時における構造的推論
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデルに共通する失敗パターン、すなわちキャプションが同じ語を用いているのに関係(リレーション)の構造が異なる場合の合成的推論を対象とする。
- Winogroundベンチマークにおいて、4種類の多様なVLM(CLIP、BLIP、LLaVA、Qwen3-VL-8B-Thinking)を、素の設定とシーングラフ拡張を用いた設定の両方で評価し、さらに拡張も行う。
- 提案手法のTextSceneGraphParserはspaCyを用いて、依存関係に基づく主語–関係–目的語のトリプルを抽出する。Graph Asymmetry Scorerは、最適な二部マッチングを用いて、推論時に構造的な関係プライア(事前知識)を注入する。
- キャプションのアブレーション(主語・目的語のマスク/入れ替え)により、Qwen3-VL-8B-Thinkingがグループスコア62.75を達成することが示される。さらにマルチターンのシーングラフ・フィルタリングを加えることで66.0まで改善し、先行するオープンソースの結果を上回る。
- 著者らは拡張のトレードオフを分析し、シーングラフ拡張はすでに強いモデルには有効である一方、弱いベースラインでは無視できる、あるいは負の改善すらもたらすことを見出す。



