象徴的グラウンディングが抽象的ビジュアル推論における表現ボトルネックを明らかにする

arXiv cs.CL / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、Bongard問題などの抽象的ビジュアル推論タスクで視覚言語モデルが苦手とする理由を、「推論」か「表現」かという観点で切り分けて検証する。
Bongard-LOGOを用い、著者らは生画像を入力とするエンドツーエンドVLMと、画像から抽出した象徴的入力を与えるLLMを比較する。
LOGOスタイルのアクションプログラムや構造化記述にもとづく象徴的推論としてベンチマークを組み替える、Componential–Grammatical（C–G）パラダイムを提案する。
LLMはフリーフォーム問題で中〜90%台の精度まで一貫して大きく改善する一方、強力な視覚ベースラインはタスク定義を揃えても偶然に近い性能にとどまる。
アブレーションの結果、入力形式や明示的な概念プロンプト、最小限の視覚グラウンディングなどの影響は、「ピクセルから象徴的構造へ置き換える」ことほど大きくなく、抽象的ビジュアル推論における主要なボトルネックは表現であることを示唆する。

Abstract

視覚--言語モデル（VLM）は、Bongard問題のような抽象的な視覚推論ベンチマークでしばしば失敗し、主なボトルネックが推論にあるのか表現にあるのかという疑問が生じます。本研究では、抽象概念学習を対象とした合成ベンチマークであるBongard-LOGOについて、そこから得られる記号入力をもとに与えられる大規模言語モデル（LLM）と、原画像に対するエンドツーエンドのVLMを比較することで、この点を調べます。実用的なマルチモーダル・アーキテクチャとしてではなく、記号入力を診断用プローブとして用いることで、私たちの \emph{Componential--Grammatical（C--G）} パラダイムは、Bongard-LOGOを、LOGOスタイルのアクションプログラムまたは構造化された記述に基づく記号推論タスクとして組み替えます。LLMは大きく一貫した改善を達成し、フリーフォーム問題で中〜90%台の精度に到達します。一方で、強力な視覚ベースラインは、同一のタスク定義のもとでは偶然に近い性能にとどまります。入力形式、明示的な概念プロンプト、および最小限の視覚的グラウンディングに関するアブレーションは、これらの要因が「ピクセルから記号的構造への移行」と比べて重要性がはるかに低いことを示します。これらの結果は、抽象的な視覚推論における主要なボトルネックが表現にあることを特定し、記号入力が制御された診断的な上限として機能し得ることを示します。