要旨: 既存のオムニモーダル・ベンチマークは、モダリティ固有の寄与を測ろうとするものの、その測定は混同されています。自然に同時に出現するモダリティは、相関した情報を持ちつつも情報量が等しくないため、結果が真のモダリティ依存を反映しているのか、それとも情報の非対称性を反映しているのかが不明確です。私たちはOMD-Benchを導入します。ここでは、すべてのモダリティを最初は一致させます――各モダリティが、動画・音声・テキストのいずれからでも独立して知覚可能な、同一のアンカー(対象または出来事)を提示します。次に、各モダリティの寄与を切り分けるために、これらを体系的に破損(コラプト)します。加えて、キャリブレーションされた棄権(abstention)も評価します。これは、証拠が矛盾しているときにモデルが適切に回答を控えるかどうかです。このベンチマークは、8種類の破損条件にまたがる27のアンカーで、合計4,080件のインスタンスから構成されます。ゼロショットおよびチェーン・オブ・ソート・プロンプトによって10のオムニモーダル・モデルを評価したところ、2つのモダリティが破損されているときモデルは過度に棄権する一方で、3つすべてが破損されているときは深刻に棄権しない(under-abstain)ことが分かりました。また、完全な破損下でも高い確信度(約60〜100%)を維持していることも確認されました。チェーン・オブ・ソート・プロンプトは棄権の整合性を人間の判断に改善しますが、それを軽減するのではなく過剰な確信(overconfidence)を増幅します。OMD-Benchは、モダリティ依存、モダリティ間の不一致に対する頑健性、不確実性キャリブレーションをオムニモーダル・システムで診断するための診断用ベンチマークを提供します。
Omni-Modal Dissonance Benchmark:モダリティのコンセンサスを体系的に破り、頑健性と校正済みの棄権を検証する
arXiv cs.LG / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、完全に一致する動画・音声・テキストのアンカーから出発し、モダリティごとに体系的な破損(corruption)を適用することで、オムニモーダル・システムにおけるモダリティ依存を切り分ける OMD-Bench を提案する。
- 既存のオムニモーダルベンチマークにおける重要な交絡要因を直接扱う。すなわち、モダリティはしばしば相関したまま同時に現れる一方で、情報は常に同等ではないため、「モダリティの寄与(modality contributions)」の測定が誤解を招き得る点である。
- OMD-Bench は、8つの破損条件にわたって27のアンカー上で合計4,080インスタンスを含み、「校正済みの棄権(calibrated abstention)」を評価し、証拠が競合するときにモデルが適切に控えるかを検証する。
- 10のオムニモーダルモデル(ゼロショットおよびチェーン・オブ・ソート(chain-of-thought)プロンプト)での実験では、2つのモダリティが破損された場合に棄権しすぎる傾向があり、3つすべてが破損された場合には棄権しなさ(under-abstention)が深刻になることが示される。さらに、全面的な破損下でも表明する確信度は高いまま(約60〜100%)である。
- チェーン・オブ・ソート・プロンプトは、棄権の整合性を人間の判断と改善するが、校正の問題を解決するのではなく過度の確信(overconfidence)を増やす。そのため、このベンチマークは、頑健性と不確実性校正を診断するためのツールとなる。



