MIBench: 大規模マルチモーダルモデルにおける多モーダル相互作用の評価

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MIBench は、大規模マルチモーダルモデル（LMMs）における多モーダル相互作用を評価する包括的なベンチマークとして導入され、各インスタンスを (con_v, con_t, task) のトリプレットとして定式化し、視覚コンテキストとテキストコンテキストを組み合わせて適切な多モーダル相互作用をテストする。
視覚中心の手掛かりから情報を引き出す、テキスト中心の手掛かりから情報を引き出す、そして結合した相乗効果から新しい情報を生成するという3つの相互作用能力を、それぞれ認識、理解、推論の3つの認知レベルで評価する。
このベンチマークには32のタスクにわたる1万を超える視覚-テキストコンテキストのペアが含まれており、評価の結果として、最先端のLMMが多モーダル相互作用に依然として制約を受け、視覚を処理する際にはテキストモダリティにより容易に気を散らされ、基本的な相互作用能力に欠陥を示すネイティブなモーダルモデルと比べてもモーダル間の協調性が限られていることが示された。
著者らは、MIBench が将来的により高機能な LMM の開発の指針となり、より高度な多モーダル相互作用を実現する研究を促すと見込んでいる。

要旨: 異なるマルチモーダルシナリオにおいて、タスクの要求に基づいて、モダリティ間の情報を特定の方法で統合・活用する必要がある。モダリティ間の異なる統合方法は「マルチモーダル・インタラクション」と呼ばれる。モデルがさまざまなマルチモーダル・インタラクションをどの程度うまく処理できるかが、そのマルチモーダル能力を大きく特徴づける。本論文では、視覚とテキストの文脈を用いて各インスタンスを (con_v , con_t, task) のトリプレットとして定式化し、LMMsがタスクを効果的に完了するために正しい形のマルチモーダル・インタラクションを用いることを要求する、マルチモーダル・インタラクション能力を評価する包括的ベンチマークであるMIBenchを提案する。MIBenchは、視覚中心の手掛かりまたはテキスト中心の手掛かりから情報を取り出す能力、そしてそれらの共同の相乗効果から新しい情報を生成する能力という3つの重要な側面からモデルを評価する。各インタラクション能力は、認識、理解、推論の3つの認知レベルに階層的に評価される。MIBenchは、32の異なるタスクにわたる10,000を超える視覚-テキスト文脈ペアから構成されている。最先端のLMMの評価は次のようなことを示している： (1) モデルパラメータとトレーニングデータ量の拡大にもかかわらず、マルチモーダル・インタラクションに対するLMMの能力は依然として制約されたままである； (2) 視覚情報を処理する際、彼らはテキストモダリティによって容易に注意がそらされる； (3) 彼らは概ねマルチモーダル・シナジーの基本的な能力を有している； (4) ネイティブに訓練されたマルチモーダルモデルは、基本的なインタラクション能力に顕著な欠陥を示している。これらの観察結果が、将来より高度なマルチモーダル能力を備えたLMMを開発する際の指針となることを期待する。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

MIBench: 大規模マルチモーダルモデルにおける多モーダル相互作用の評価

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer