見えるところに隠された意味：認知的ビジュアル推論を評価するためのRebusBench

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の大規模視覚言語モデルが、画像が手がかり（クルー）として機能し、答えが明示的な視覚認識を超えた多段階の認知推論に依存する場合に、しばしば失敗することを主張している。
1,164個のレッブス（rebus）パズルからなるベンチマークRebusBenchを導入し、ニューロシンボリック能力をテストする。具体的には、知覚から言語への属性抽出、慣用句／言語的事前知識の想起、そしてピクセル空間外で意味を生成するための抽象的な対応付けを要求する。
Qwen、InternVL、LLaVAなどのモデルを評価した結果、Exact Matchは10%未満、意味的精度は20%未満で頭打ちとなるなど、深刻な限界が示された。
著者らは、モデルのスケーリングやインコンテキスト学習による有意な改善が見られないことを報告しており、「不足しているのは生の視覚や言語成分ではなく、推論の“つなぎ（glue）”である」可能性を示唆している。
本研究は、レッブス形式の課題を、視覚理解を外部知識と統合し、体系的な推論を行う能力の診断手段として位置づけている。