DISSECT:科学系VLMにおける「視覚がどこまで届き、言語の事前知識がどこから始まるか」を診断する

arXiv cs.CV / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、科学系VLMにおいて視覚知覚と、下流の言語ベースの統合(インテグレーション)を切り分けることを目的とした、12,000問の診断用ベンチマーク「DISSECT」を提案する。

Abstract

分子図を説明するよう求められると、Vision-Language Model は「-OH 基を持つベンゼン環」を正しく識別します。しかし、同じ画像について推論するよう求められると、誤って答えます。このモデルは見ることはできるが、見えている内容について考えることができません。私たちはこれを知覚-統合ギャップと呼びます。これは、視覚情報がうまく抽出される一方で、下流の推論の過程で失われてしまう失敗であり、知覚と統合を 1 つの正答率の数値にまとめてしまう単一構成ベンチマークからは見えません。このような失敗を体系的に明らかにするために、DISSECT という 12,000 問からなる診断用ベンチマークを導入します。対象は化学(7,000)と生物(5,000)です。すべての問題は 5 つの入力モードで評価されます――Vision+Text、Text-Only、Vision-Only、Human Oracle、そして新しい Model Oracle です。この Model Oracle では、VLM がまず画像を言語化し、その記述にもとづいて自ら推論します。これにより、性能を言語優先の活用、視覚抽出、知覚の忠実性、そして統合の有効性に分解する診断ギャップが得られます。18 の VLM を評価したところ、次のことが分かりました。(1)化学は生物よりも言語優先の活用可能性が大幅に低く、分子の視覚コンテンツが、真の視覚推論にとってより難しいテストであることを裏付けます。(2)オープンソースのモデルは一貫して、元画像から直接推論するよりも、自身が言語化した記述から推論した場合の方が高いスコアを示し、体系的な統合ボトルネックを明らかにします。(3)クローズドソースのモデルにはそのようなギャップが見られず、知覚と統合をつなぐことが、オープンソースとクローズドソースのマルチモーダル能力を分けるフロンティアであることを示しています。Model Oracle のプロトコルは、モデルおよびベンチマークに依存しないため、任意の VLM 評価に対して事後的(post-hoc)に適用でき、統合の失敗を診断できます。