SMSP:MLLMが視覚的錯視を知覚するためのマルチスケール知覚に基づくプラグ・アンド・プレイ戦略
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダル大規模言語モデル(MLLM)が、人間には明らかな隠れパターンの視覚錯視に対して失敗しうることを報告している。これは、人間の視覚との知覚の不一致を示唆し、安全上の懸念を引き起こす。
- 論文では、包括的な錯視データセットであるIlluCharを導入し、主要な失敗メカニズムとして、高周波の注意(attention)バイアスがテクスチャの背景に注意を引かせ、隠れた内容を見落としてしまう点を特定する。
- これを緩和するため、著者らはSMSP(Strategy of Multi-Scale Perception:マルチスケール知覚戦略)を提案する。これは、気を散らす高周波の背景情報を抑制し、モデルの知覚を人間のそれにより良く整合させるプラグ・アンド・プレイの枠組みである。
- 実験結果より、SMSPは、錯視画像に対して評価した複数のMLLMで性能を大幅に向上させることが示されており、Qwen3-VL-8B-Instructの精度が13.0%から84.0%へと大きくジャンプしたことが含まれる。
- 著者らはコードを公開しており、SMSPをMLLMの視覚知覚を改善するための実用的かつ頑健なアプローチとして位置づけている。
広告




