Caption First, VQA Second：タスク形式ではなく知識密度がマルチモーダルのスケーリングを駆動する

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル・モデルのスケーリングは、タスク形式の多様性（例：VQA）よりも、学習データにおける知識密度とセマンティックなカバレッジによって制約されると主張する。
VQAの教師データは、すでに画像キャプションに含まれている情報以上の追加的なセマンティック情報をほとんど提供しないことを示し、VQA性能はキャプションから（ごく僅かな損失で）再構成できるとする。
著者らは、構造化されたキャプション強化やクロスモーダルな知識注入といった手法により知識密度を高めることで、マルチモーダルおよび下流ベンチマークの両方で一貫した改善が得られることを報告している。
制御された実験全体で、タスクの多様性よりもセマンティックなカバレッジとの相関がより強いことが確認されており、データにおける知識のボトルネックが示唆される。
本研究は、既存のMLLMがスケールしにくいのは学習データに十分な知識カバレッジが欠けているためだと結論づけ、スケーラブルなマルチモーダル学習の基盤として知識中心のアプローチを提案する。

Abstract

マルチモーダル大規模言語モデル（MLLMs）は急速に進歩しているが、そのスケーリング挙動は、テキストのみのLLMほど明確に特徴づけられておらず、またしばしば予測可能性も低い。モデル規模の拡大やタスクの多様化は多くの場合、限界までの収穫が小さくなる。本研究では、マルチモーダル・スケーリングにおける主要なボトルネックは、タスク形式ではなく、学習データ中の知識密度であると主張する。まず、視覚質問応答（VQA）のようなタスク固有の教師信号は、画像キャプションを超えて追加で得られる意味情報がほとんどないことを示す。すなわち、VQAの信号は、実質的に性能低下なしでキャプションから再構成できる。次に、知識密度を増やすこと――構造化されたキャプションの拡充およびクロスモーダル知識の注入によって――は、マルチモーダルおよび下流ベンチマークの双方にわたって一貫した性能向上をもたらすことを実証する。制御された一連の実験では、性能はタスク多様性よりも意味のカバレッジとより強く相関する。これらの結果は、現在のMLLMが主にトレーニングデータに十分な知識カバレッジが欠けているためにスケールできていないことを示唆する。我々は、スケーラブルなマルチモーダルモデルのための原理的基盤として、知識中心のマルチモーダル・トレーニングを提唱する。