V-MAGE：マルチモーダル大規模言語モデルにおける視覚中心の能力を評価するためのゲーム評価フレームワーク

arXiv cs.CV / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文では、静的な画像—テキストベンチマークではなく、相互作用を伴う動的環境においてマルチモーダル大規模言語モデル（MLLM）の視覚中心の能力を評価するためのゲームベース評価フレームワーク「V-MAGE」を提案する。
V-MAGEは5つのビデオゲームと30以上の入念に設計されたシナリオを含み、複雑で自由形式の視覚環境の中で、時間経過に沿った視覚入力のみを根拠に意思決定することを要求する。
難易度やタスク多様性の違いを考慮しつつ、モデル間の比較を頑健かつ解釈可能にするために、動的なELOベースのランキング手法を用いる。
実験では主要なMLLMを人間ベースラインと比較し、単純タスクでは人間に近い性能に到達する一方で、高度な推論やタスクオーケストレーションが必要な複雑シナリオでは大幅に性能が低下することを示し、フレームごとの視覚に基づくインタラクティブ制御に関する限界を示唆している。
公開コードを提供し、分析を通じてV-MAGEが具体的な弱点を特定し、動的な相互作用におけるMLLMの視覚推論能力を改善するための実行可能な示唆を与えられることを示す。

要旨: 多モーダル大規模言語モデル（MLLMs）における最近の進展は、視覚とテキストの処理において目覚ましい能力を示してきました。しかし、既存の静的な画像-テキストのベンチマークでは、それらの動的知覚およびインタラクティブな推論能力を評価するには不十分です。私たちは、インタラクティブで連続的な空間環境におけるMLLMの視覚推論を体系的に評価するための、新しいゲームベースの評価フレームワークであるVision-centric Multiple Abilities Game Evaluation（V-MAGE）を提案します。V-MAGEは、注意深く構築された30以上の評価シナリオから成る5つの異なるビデオゲームを備えています。これらのシナリオは、モデルが動的なゲーム状態を解釈し、視覚入力のみに基づいて意思決定を行うことを要求する、自由形式で視覚的に複雑な環境に設定されています。これにより、人間のプレイヤーが遭遇する状況をより忠実に反映します。モデル間で堅牢かつ解釈可能な比較を確実に行うため、V-MAGEは、難易度のばらつきやタスク多様性を考慮した動的なELOベースのランキングシステムを採用しています。最先端のMLLMを人間のベースラインと比較したベンチマーク結果では、リーディングモデルは単純なタスクでは人間レベルに近づく一方で、高度な推論とタスクのオーケストレーションを必要とする複雑なシナリオでは性能が大きく低下することが示されます。この継続的な性能ギャップは、シミュレーションされた連続時間環境において、視覚に基づくインタラクティブなフレームごとの制御を実行するための、現在のMLLMの根本的な制約を浮き彫りにします。広範な分析を通じて、V-MAGEがこれらの制約を解明し、動的でインタラクティブな状況におけるMLLMの視覚および推論能力を改善するための実行可能な洞察を提供するのに有用であることを示します。コードは https://github.com/CSU-JPG/V-MAGE で公開されています。