フローズンVLMにおける視覚錯覚の緩和：定性的推論によるショートカット超え

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）が光学的錯覚に直面すると脆くなる主因として、言語的な先入観や記憶されたプロトタイプを優先してしまい、直接的な視覚証拠を十分に使わない「ショートカット」的な推論があると指摘しています。
学習や微調整を行わない、学習フリーの推論時フレームワークとして Structured Qualitative Inference（SQI）を提案し、定性的制約を適用することで視覚的なグラウンディングを改善することを目指します。
SQIは Axiomatic Constraint Injection、Hierarchical Scene Decomposition、Counterfactual Self-Verification の3つのモジュールで、誤った定量推定や定量的な幻覚を抑え、注目対象の信号を背景の混入要因から切り離し、確証バイアスを弱めます。
DataCV 2026 Challenge（Task I: Classic Illusion Understanding）での評価では、SQIが総合2位を獲得し、錯覚カテゴリ全般で精度が向上したと報告されています。
ベースラインよりも診断可能性（解釈のしやすさ）も高いとしており、構造化された定性的グラウンディングが、錯覚に強い次世代VLM開発の有望な方針であることを示唆しています。