Caption First, VQA Second:タスク形式ではなく知識密度がマルチモーダルのスケーリングを駆動する
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル・モデルのスケーリングは、タスク形式の多様性(例:VQA)よりも、学習データにおける知識密度とセマンティックなカバレッジによって制約されると主張する。
- VQAの教師データは、すでに画像キャプションに含まれている情報以上の追加的なセマンティック情報をほとんど提供しないことを示し、VQA性能はキャプションから(ごく僅かな損失で)再構成できるとする。
- 著者らは、構造化されたキャプション強化やクロスモーダルな知識注入といった手法により知識密度を高めることで、マルチモーダルおよび下流ベンチマークの両方で一貫した改善が得られることを報告している。
- 制御された実験全体で、タスクの多様性よりもセマンティックなカバレッジとの相関がより強いことが確認されており、データにおける知識のボトルネックが示唆される。
- 本研究は、既存のMLLMがスケールしにくいのは学習データに十分な知識カバレッジが欠けているためだと結論づけ、スケーラブルなマルチモーダル学習の基盤として知識中心のアプローチを提案する。




