要旨: 視覚言語モデル(VLMs)はフォトリアルな生成に優れている一方で、名詞複合の慣用的解釈のような抽象的意味を表現することはしばしば困難です。視覚的忠実度の高さが、視覚的抽象化のもとで慣用的な合成性(compositionality)を妨げるのかどうかを検討するために、私たちはDIVAを導入します。DIVAは制御されたベンチマークであり、高忠実度の視覚的ディテールを、図式的なイコノグラフィック性(iconicity)に置き換えます。具体的には、文字通りの読みと慣用的な読みそれぞれについて、意味に基づいてアンカーされた(sense-anchored)視覚化を対として生成することで、この現象を調べます。さらに、リテラル(文字通り)とイディオマティック(慣用的)の視覚的グラウンディングの間の乖離を定量化する、アーキテクチャに依存しない指標であるSemantic Alignment Gap(\Delta)を提案します。加えて、文字通りの選好に関する「方向」と「強さ」を別々に測定するための、方向付き符号付きバイアスb(t)も導入します。最近の8つのVLMを評価したところ、一貫した「Literal Superiority Bias(文字通り優位バイアス)」が明らかになりました。モデルのスケールだけでは文字通りの選好は解消されず、視覚的忠実度を高めるほど象徴的アラインメントは弱くなることが示され、超リアルな画像による認知的干渉が示唆されます。これらの結果は、合成的な理解を改善するには、視覚入力のイコノグラフィックな抽象化と、意図した意味に基づく解釈・生成のアンカーリングが必要であることを示しています。
目に見える以上のもの:セマンティック・アンカリングによる視覚言語モデルの記号論的ギャップの測定
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、フォトリアルな情報を図式的・象徴的な視覚表現に置き換えることで、視覚の忠実度がイディオム的な合成的理解に与える影響を検証する統制ベンチマークDIVAを提案している。
- さらに、Semantic Alignment Gap(Δ)として、リテラルとイディオムの視覚的グラウンディングの差を測る、アーキテクチャ非依存の指標を導入している。
- 読みの「方向」と「強さ」を別々に定量化するための方向付き符号付きバイアス b(t) も提示している。
- 8つの最近のVLMを評価した結果、リテラル優越バイアスが一貫して見られ、モデル規模を大きくするだけではリテラル優越を解消できないことが示されている。
- 視覚の忠実度が高いほどシンボリックなアラインメントが弱まることもわかり、超現実的な画像が意味のグラウンディングを妨げる可能性があるため、入力の図像化的な抽象化と意図した意味へのアンカリングが有効だと結論づけている。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA