概要: 本論文では、推論の「幅(reasoning width)」に明確に焦点を当てる、MLLMの推論能力を評価するための、全体論的(holistic)マルチモーダル・ベンチマークを提示します。これは、より一般的に研究されてきた推論の「深さ(reasoning depth)」を補完する次元です。具体的に、推論の深さは、各ステップが次のステップへと厳密かつ緊密に結び付けられている、長い鎖状の逐次推論を遂行するモデルの能力を測ります。推論の幅は、モデルが幅広い試行錯誤の探索や、多制約の最適化を行う能力により焦点が当たりがちです。すなわち、モデルは多数の可能な推論経路を体系的に(しかも並列化された形で)たどり、見込みのない分岐を枝刈りするために多様な制約を適用し、効率的な反復やバックトラッキングのための妥当な解の到達経路を特定しなければなりません。これを実現するために、異種の領域にまたがる1200件超の高品質なマルチモーダル事例を慎重に厳選し、推論の幅と深さを共同で定量化する、きめ細かなツリー・オブ・ソート(tree-of-thought)評価プロトコルを提案します。本研究では、難易度ティア、質問タイプ、要求されるスキルにわたって、12の主要なモデルファミリ(30を超える高度なMLLM)を評価します。結果は、現在のモデルが一般的または常識的なVQAタスクでは強い性能を示す一方で、真の洞察に基づく推論を行うために、深い逐次的な思考の鎖と、幅広い探索を組み合わせることでは依然として困難があることを示しています。最後に、特徴的な失敗パターンを分析し、より深いだけでなくより幅広い推論も行えるMLLMを構築するための可能な方向性を提示します。
360{}を考える:深さを超えてMLLMの幅中心の推論能力を評価する
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MLLMにおける推論の幅を明示的に測定するマルチモーダルのベンチマークと評価プロトコルを導入し、より一般的な推論の深さという指標を補完するものとして位置づけている。
- 推論の幅は、長い逐次的なチェーンだけでなく、広範で並列化可能な探索を行う能力(例:試行錯誤の探索、制約に基づく枝刈り、効率的なバックトラッキング)として捉えられている。
- 著者らは、多様な領域にわたる高品質なマルチモーダル事例を1200件以上厳選し、幅と深さの両方を同時に定量化するきめ細かなツリー・オブ・ソート(ToT)評価手法を提案している。
- 12の主要なモデルファミリ(30以上の高度なMLLM)にまたがる実験の結果、一般的・常識的なVQAでは強い性能が示される一方で、洞察ベースのタスクにおいては、深い逐次推論と広範な探索を組み合わせることが依然として難しいことが明らかになっている。
- 本研究は特徴的な失敗モードを分析し、「より深い」かつ「より広い」推論能力の両方を改善できるようなMLLMの設計方針に関する方向性を提案している。




