見ることの代償：モノリシック・パラダイムのもとで信頼できるマルチモーダル推論を実現するには

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Vision-Language Models（VLM）が前提とされるように視覚と文言の情報を信頼できる形で統合していないと主張し、しばしば言語の強い事前知識によって視覚のボトルネックを迂回してしまうと述べています。
分析では、アブレーションや新しいデータセット作成といった従来のマルチモーダル評価手法では、データセットのバイアスとアーキテクチャ上の能力不足を切り分けられず、報告されるマルチモーダル性能への信頼を損ねる可能性があると指摘しています。
著者らは、情報理論的なアプローチとして Modality Translation Protocol（モダリティ・トランスレーション・プロトコル）を提案し、「実際にどれだけ見えているか」を定量的に明らかにするために、Toll（ToS）、Curse（CoS）、Fallacy（FoS） of Seeing という3つの新しい指標を導入します。
Semantic Sufficiency Criterion（SSC）を提示し、さらに「言語エンジンをスケールさせるほど視覚ボトルネックの逆説的なペナルティがむしろ増える」という Divergence Law of Multimodal Scaling を仮説として示しています。
本研究は、KDDコミュニティに対し「マルチモーダル・ゲイン」への幻想的な追求をやめ、SSCを能動的なアーキテクチャ設計図として用いて、本当にデータに根ざしたマルチモーダル推論を目指すよう求めています。

Abstract

視覚言語モデル（VLMs）の急速な普及は、統一的なマルチモーダル知識発見の到来として広く称賛されているが、その基盤は危険で、疑われることのない公理に支えられている。それは、「現在のVLMはマルチモーダルデータを忠実に合成している」という前提である。我々は、それは成り立たないと主張する。代わりに、支配的なVision Encoder-Projector-LLMという枠組みの根底には、信頼性の深刻な危機がある。視覚入力から根拠に基づく知識を抽出するのではなく、最先端モデルはしばしば機能的な盲目性、すなわち強力な言語の事前知識を活用して、深刻な視覚表現のボトルネックを回避してしまう。本研究では、従来のマルチモーダル評価手法、すなわちデータのアブレーションや新たなデータセットの作成に依存する方法に異議を唱える。これらは致命的に、データセットのバイアスと、アーキテクチャの無力（能力不足）とを取り違えてしまうためである。我々が提案するのは、情報理論的な、過激な方針転換である。見ることの代償（Expense of Seeing）を定量的にあぶり出すために設計されたModality Translation Protocolである。アブレーションではなく意味的なペイロードを翻訳することで、見ることの3つの新しい指標――見ることの通行料（Toll (ToS)）、見ることの呪い（Curse (CoS)）、見ることの誤謬（Fallacy (FoS)）――を定式化し、最終的にSemantic Sufficiency Criterion（SSC）へと結実させる。さらに我々は、マルチモーダルスケーリングの挑発的なDivergence Law（発散則）を提起する。そこでは、基盤となる言語エンジンが前例のない推論能力へとスケールするにつれて、視覚知識ボトルネックのパラドックスに対する数学的なペナルティが逆説的に増大する、という仮説を立てる。我々は、KDDコミュニティに対し、「マルチモーダルゲイン」という幻想的な追求をやめることを求める。SSCを受動的な診断制約から、能動的なアーキテクチャ設計図へと引き上げることで、次世代のAIシステムがデータを本当に「見る」ことを強制するために必要な、厳密で信頼できる基盤を提供し、真のマルチモーダル推論を実現する。