SMSP：MLLMが視覚的錯視を知覚するためのマルチスケール知覚に基づくプラグ・アンド・プレイ戦略

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダル大規模言語モデル（MLLM）が、人間には明らかな隠れパターンの視覚錯視に対して失敗しうることを報告している。これは、人間の視覚との知覚の不一致を示唆し、安全上の懸念を引き起こす。
論文では、包括的な錯視データセットであるIlluCharを導入し、主要な失敗メカニズムとして、高周波の注意（attention）バイアスがテクスチャの背景に注意を引かせ、隠れた内容を見落としてしまう点を特定する。
これを緩和するため、著者らはSMSP（Strategy of Multi-Scale Perception：マルチスケール知覚戦略）を提案する。これは、気を散らす高周波の背景情報を抑制し、モデルの知覚を人間のそれにより良く整合させるプラグ・アンド・プレイの枠組みである。
実験結果より、SMSPは、錯視画像に対して評価した複数のMLLMで性能を大幅に向上させることが示されており、Qwen3-VL-8B-Instructの精度が13.0%から84.0%へと大きくジャンプしたことが含まれる。
著者らはコードを公開しており、SMSPをMLLMの視覚知覚を改善するための実用的かつ頑健なアプローチとして位置づけている。