SMSP:MLLMが視覚的錯視を知覚するためのマルチスケール知覚に基づくプラグ・アンド・プレイ戦略

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多モーダル大規模言語モデル(MLLM)が、人間には明らかな隠れパターンの視覚錯視に対して失敗しうることを報告している。これは、人間の視覚との知覚の不一致を示唆し、安全上の懸念を引き起こす。
  • 論文では、包括的な錯視データセットであるIlluCharを導入し、主要な失敗メカニズムとして、高周波の注意(attention)バイアスがテクスチャの背景に注意を引かせ、隠れた内容を見落としてしまう点を特定する。
  • これを緩和するため、著者らはSMSP(Strategy of Multi-Scale Perception:マルチスケール知覚戦略)を提案する。これは、気を散らす高周波の背景情報を抑制し、モデルの知覚を人間のそれにより良く整合させるプラグ・アンド・プレイの枠組みである。
  • 実験結果より、SMSPは、錯視画像に対して評価した複数のMLLMで性能を大幅に向上させることが示されており、Qwen3-VL-8B-Instructの精度が13.0%から84.0%へと大きくジャンプしたことが含まれる。
  • 著者らはコードを公開しており、SMSPをMLLMの視覚知覚を改善するための実用的かつ頑健なアプローチとして位置づけている。
広告