要旨: マルチモーダルAIシステムは下流タスクの精度によって評価されますが、高精度であることは基となるデータが一貫していることを意味しません。モデルは、入力同士が矛盾していても、視覚質問応答(VQA)で良いスコアを出すことができます。私たちは、下流モデルに依存せずに融合の品質を評価する指標であるマルチモーダル整合性スコア(MCS)を導入します。MCSは、整合性を4つの次元、すなわちアイデンティティ、空間、意味、意思決定に分解し、重みはネルダー=ミード最適化によって学習します。私たちはDETR、CLIP、ViLTを用いて1,000枚のVisual Genome画像で評価し、再学習なしで150枚のCOCO画像で検証します。3つの融合アーキテクチャにわたって、MCSはタスク精度のみの場合より高い感度で品質を識別します(スピアマンのρ = 0.093 vs. 0.071)。摂動実験により、各次元がその故障モードに対して独立に応答し、クロストークがゼロであることが確認されます。MCSは軽量で、人手による注釈を必要とせず、単に何かが壊れたことを伝えるだけでなく、何が壊れたのかを示します。
良いスコア、悪いデータ:マルチモーダル・コヒーレンスのための指標
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、下流の精度だけに基づくマルチモーダルAI評価では、矛盾した画像と質問の信号のように入力が支離滅裂であってもVQAの結果が強く出てしまうケースを見落とし得ると主張する。
- それに対し、下流タスクのモデル性能に依存せず、融合の品質を測るMultimodal Coherence Score(MCS)を導入する。
- MCSは、コヒーレンスを4つの独立して検証可能な次元――アイデンティティ、空間、セマンティクス、意思決定――に分解し、次元ごとの重みはNelder-Mead最適化によって学習する。
- 1,000枚のVisual Genome画像での実験と、150枚のCOCO画像での検証により、MCSは評価バックボーンとしてDETR、CLIP、ViLTを用いた場合でも、タスク精度だけの場合より融合の品質をより適切に識別できることを示す。
- 摂動テストでは、次元間のクロストークが低い、またはゼロであることが示され、さらに本指標は軽量で注釈不要であるだけでなく、どのコヒーレンス側面が失敗しているのかを診断するのにも役立つよう設計されている。



