証拠を見ても答えを見落とす：視覚錯覚に対するツール誘導型の視覚言語モデル

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

視覚言語モデルは、反事実的な画像修正を行った後でも、古典的な光学錯覚を「現実」として扱うことに対して一貫したバイアスを持つことが示される。
本論文は、再学習なしで錯覚による失敗モードを修正する、DataCV 2026チャレンジ向けのツール誘導推論フレームワークを提案し、市販のVLMが汎用の画像操作ツールを用いることを可能にする。
「錯覚タイプのルーティング」プロンプトが、知覚に関する質問カテゴリごとにどのツールを呼び出すかを決定し、各ツール呼び出しは不変（immutable）な画像リソースを生成してモデルが再利用できるよう永続的なレジストリに保存される。
この手法は強力な構造横断的汎化を示し、（回転させたマッハバンドのように）構造的に未知の錯覚バリアントを含むテストセットでも性能を維持する。
著者らは、正の検出バイアスがデータ駆動である可能性、ピクセルレベルの空間推論と、生成された注釈に対するより高次の論理推論の間に存在するギャップ、そして圧縮アーティファクトへの感度の高まりといった重要な未解決課題を報告している。

Abstract

画像言語モデル（VLM）は、古典的な光学錯視に直面すると体系的なバイアスを示します。すなわち、画像が反実仮想的に改変されているかどうかにかかわらず、錯視を「現実のもの」として過度に予測するのです。私たちは、学習を一切行わずに、この失敗モードに対処する DataCV 2026 チャレンジ（タスク I および II）向けの、ツール誘導型推論フレームワークを提案します。市販の汎用画像言語モデルに、少量の汎用的な画像操作ツール（線描画、領域の切り出し、左右の並置比較、チャンネル分離）を与えます。さらに、錯視タイプのルーティングを行うシステムプロンプトとして、各知覚質問カテゴリごとにどのツールを呼び出すべきかを規定します。重要なのは、呼び出されるあらゆるツールが新たで不変の画像リソースを生成し、それが永続レジストリに追記されるため、モデルは推論チェーンのあらゆる段階を通じて、これまでに注釈された任意の見え（ビュー）を参照し、組み合わせることができる点です。錯視固有のモジュールをハードコードするのではなく、この汎用ツール＋ルーティング設計により、強力な横断的構造一般化が得られます。性能は、検証セットから、構造的に見慣れない錯視バリアント（例：Mach Bands が縦方向の積み重ねから横方向の積み重ねへ回転したもの）を含むテストセットまで一貫していました。さらに、追加で調査する価値があると考える、以下の 3 つの経験的観察を報告します。（i）不均衡な錯視の学習データに起因すると考えられる強い正検出バイアス。（ii）ピクセルに正確な空間推論と、自ら生成した注釈に対する論理推論との間に顕著な解離があること。（iii）画像圧縮のアーティファクトに対する顕著な感度で、それが偽陽性をさらに増幅させていること。