象徴的グラウンディングが抽象的ビジュアル推論における表現ボトルネックを明らかにする
arXiv cs.CL / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、Bongard問題などの抽象的ビジュアル推論タスクで視覚言語モデルが苦手とする理由を、「推論」か「表現」かという観点で切り分けて検証する。
- Bongard-LOGOを用い、著者らは生画像を入力とするエンドツーエンドVLMと、画像から抽出した象徴的入力を与えるLLMを比較する。
- LOGOスタイルのアクションプログラムや構造化記述にもとづく象徴的推論としてベンチマークを組み替える、Componential–Grammatical(C–G)パラダイムを提案する。
- LLMはフリーフォーム問題で中〜90%台の精度まで一貫して大きく改善する一方、強力な視覚ベースラインはタスク定義を揃えても偶然に近い性能にとどまる。
- アブレーションの結果、入力形式や明示的な概念プロンプト、最小限の視覚グラウンディングなどの影響は、「ピクセルから象徴的構造へ置き換える」ことほど大きくなく、抽象的ビジュアル推論における主要なボトルネックは表現であることを示唆する。



