Agentic-MME: エージェント的能力は多モーダル知能にもたらすものは何か？

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、現在の多モーダルエージェントの評価が不十分であると主張する。理由は、ツール利用を柔軟に検証できないこと、視覚ツールとWeb/検索ツールを適切に切り分けていないこと、またツールが正しく呼び出され適用されたかどうかではなく、最終回答のみを判定しがちであること。
418件の実世界タスクを6ドメインにわたり、3つの難易度レベルで収録した、プロセス検証済みの多モーダル・ベンチマーク「Agentic-MME」を導入する。さらに、微細な中間状態の監査によって検証された2,000ステップ超の段階的チェックポイントを含む。
ベンチマークは、視覚拡張（視覚ツールの利用）と知識拡張（オープンWeb検索）による「能力シナジー」を、サンドボックス化されたコードおよびAPI、ならびに人手による参照トラジェクトリを支える統一フレームワークで評価する。
モデルのスコアは、正解率（例：Gemini3-proの全体精度56.3%）だけでなく、「オーバーシンキング」指標によるプロセス効率も考慮する。最も難しいLevel-3タスクでは性能が23.0%まで低下する。
全体として、実世界の多モーダルなエージェント的問題解決は依然として難しく、プロセス単位の検証によって、最終回答のみの指標では見えにくい弱点を明らかにできることを結果が示している。