要旨: 異なるマルチモーダルシナリオにおいて、タスクの要求に基づいて、モダリティ間の情報を特定の方法で統合・活用する必要がある。モダリティ間の異なる統合方法は「マルチモーダル・インタラクション」と呼ばれる。モデルがさまざまなマルチモーダル・インタラクションをどの程度うまく処理できるかが、そのマルチモーダル能力を大きく特徴づける。本論文では、視覚とテキストの文脈を用いて各インスタンスを (con_v , con_t, task) のトリプレットとして定式化し、LMMsがタスクを効果的に完了するために正しい形のマルチモーダル・インタラクションを用いることを要求する、マルチモーダル・インタラクション能力を評価する包括的ベンチマークであるMIBenchを提案する。MIBenchは、視覚中心の手掛かりまたはテキスト中心の手掛かりから情報を取り出す能力、そしてそれらの共同の相乗効果から新しい情報を生成する能力という3つの重要な側面からモデルを評価する。各インタラクション能力は、認識、理解、推論の3つの認知レベルに階層的に評価される。MIBenchは、32の異なるタスクにわたる10,000を超える視覚-テキスト文脈ペアから構成されている。最先端のLMMの評価は次のようなことを示している: (1) モデルパラメータとトレーニングデータ量の拡大にもかかわらず、マルチモーダル・インタラクションに対するLMMの能力は依然として制約されたままである; (2) 視覚情報を処理する際、彼らはテキストモダリティによって容易に注意がそらされる; (3) 彼らは概ねマルチモーダル・シナジーの基本的な能力を有している; (4) ネイティブに訓練されたマルチモーダルモデルは、基本的なインタラクション能力に顕著な欠陥を示している。これらの観察結果が、将来より高度なマルチモーダル能力を備えたLMMを開発する際の指針となることを期待する。
MIBench: 大規模マルチモーダルモデルにおける多モーダル相互作用の評価
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MIBench は、大規模マルチモーダルモデル(LMMs)における多モーダル相互作用を評価する包括的なベンチマークとして導入され、各インスタンスを (con_v, con_t, task) のトリプレットとして定式化し、視覚コンテキストとテキストコンテキストを組み合わせて適切な多モーダル相互作用をテストする。
- 視覚中心の手掛かりから情報を引き出す、テキスト中心の手掛かりから情報を引き出す、そして結合した相乗効果から新しい情報を生成するという3つの相互作用能力を、それぞれ認識、理解、推論の3つの認知レベルで評価する。
- このベンチマークには32のタスクにわたる1万を超える視覚-テキストコンテキストのペアが含まれており、評価の結果として、最先端のLMMが多モーダル相互作用に依然として制約を受け、視覚を処理する際にはテキストモダリティにより容易に気を散らされ、基本的な相互作用能力に欠陥を示すネイティブなモーダルモデルと比べてもモーダル間の協調性が限られていることが示された。
- 著者らは、MIBench が将来的により高機能な LMM の開発の指針となり、より高度な多モーダル相互作用を実現する研究を促すと見込んでいる。