見ることの代償:モノリシック・パラダイムのもとで信頼できるマルチモーダル推論を実現するには
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision-Language Models(VLM)が前提とされるように視覚と文言の情報を信頼できる形で統合していないと主張し、しばしば言語の強い事前知識によって視覚のボトルネックを迂回してしまうと述べています。
- 分析では、アブレーションや新しいデータセット作成といった従来のマルチモーダル評価手法では、データセットのバイアスとアーキテクチャ上の能力不足を切り分けられず、報告されるマルチモーダル性能への信頼を損ねる可能性があると指摘しています。
- 著者らは、情報理論的なアプローチとして Modality Translation Protocol(モダリティ・トランスレーション・プロトコル)を提案し、「実際にどれだけ見えているか」を定量的に明らかにするために、Toll(ToS)、Curse(CoS)、Fallacy(FoS) of Seeing という3つの新しい指標を導入します。
- Semantic Sufficiency Criterion(SSC)を提示し、さらに「言語エンジンをスケールさせるほど視覚ボトルネックの逆説的なペナルティがむしろ増える」という Divergence Law of Multimodal Scaling を仮説として示しています。
- 本研究は、KDDコミュニティに対し「マルチモーダル・ゲイン」への幻想的な追求をやめ、SSCを能動的なアーキテクチャ設計図として用いて、本当にデータに根ざしたマルチモーダル推論を目指すよう求めています。



