M$^3$-VQA：マルチモーダル／マルチエンティティ／マルチホップ視覚質問応答のためのベンチマーク

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本記事は、マルチモーダル大規模言語モデルを対象に、細粒度のマルチエンティティ視覚質問応答とマルチホップ推論を評価するための新しいベンチマーク「M$^3$-VQA」を提案します。
従来のVQAデータセットが粗いカテゴリや単一エンティティの質問に重点を置くのに対し、M$^3$-VQAは画像とテキストの双方に由来する複数の異なるエンティティを扱う多様な質問を含みます。
このベンチマークでは、複数ドキュメントにわたって逐次および並列のマルチホップ推論を行うことが求められ、キュレーションされたマルチモーダル知識ベースと詳細で追跡可能な根拠（エビデンス）によって支えられます。
16の主要MLLMでの評価から、知識獲得と推論に大きな課題があることが示されます。外部知識なしでは性能が低い一方で、正解の根拠（gold evidence）が与えられると大幅に改善します。
検索では、推論を意識したエージェント型のリトリーバルがヒューリスティック手法より優れることが示され、複雑なマルチモーダル理解には構造化された推論が重要だと示唆されます。

日経XTECH

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA