OMHBench：バランス化されたかつグラウンディングされたオムニモーダル・マルチホップ推論のベンチマーク

arXiv cs.CL / 2026/4/29

💬 オピニオンModels & Research

共有:

要点

本論文では、テキスト・画像・音声の3モダリティにまたがるオムニモーダル・マルチホップ推論を、バランスの取れた「推論経路」として共同でグラウンディングするための新しいベンチマークOMHBench（6,144問）を提案しています。
既存のMLLM評価フレームワークには、モダリティの近道（shortcut）や偏った推論経路につながるといった致命的な欠点があると指摘しています。
13の最先端MLLMを評価した結果、プロプライエタリ（商用）モデルとオープンソースモデルの間には大きな性能差があることが分かりました。
さらに、プロプライエタリモデルであっても推論経路の変化に非常に敏感で、その結果としてモダリティ間のグラウンディングが非対称になることを示しています。
音声モダリティの処理が特に難しく、テキスト/画像中心ではなくバランスの取れたオムニモーダル・マルチホップ評価の必要性を強調しています。

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to

Dev.to