要旨: マルチモーダル大規模言語モデル(MLLMs)は、視覚と言語のベンチマークで目覚ましい進歩を遂げてきましたが、視覚的認知および視空間的推論に関する能力は、いまだ十分に理解されていません。私たちは、「Mind's Eye(心の目)」を提案します。これは、古典的な人間の知能検査に着想を得た8つの視覚認知タスクからなる複数選択式ベンチマークであり、新たな「A-R-T」タクソノミー(Abstraction(抽象化)、Relation(関係付け)、Transformation(変換))のもとに整理されています。このタスクは、パターンの帰納、類推に基づく関係の対応付け、心的な変換といった、流動性知能の中核となるプロセスを検査します。私たちは、クローズドソースおよびオープンソースの多様なMLLM群を評価し、その性能を人間の参加者と比較します。人間は80%の正解率を達成しますが、最高性能のMLLMでも50%未満にとどまります。誤りの分析により、失敗の原因は次の点にあることが明らかになりました:(i)視覚的注意の割り当て、(ii)内部の知覚操作、(iii)基盤となる視覚概念の抽象化が弱いことです。これらの結果は、現在のMLLMが、人間の参加者と比べて視空間的推論能力が限定的であることを示唆しており、より認知に根ざした評価フレームワークの必要性を浮き彫りにします。
Mind’s Eye:マルチモーダルLLMのための視覚的抽象化・変換・構成ベンチマーク
arXiv cs.CV / 2026/4/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は「Mind’s Eye」を提案し、A-R-T(Abstraction–Relation–Transformation)という分類にもとづく8つのタスクでマルチモーダルLLMの視覚的な認知・空間推論を評価します。
- このベンチマークは、パターン誘導、類比的な関係の対応づけ、心的な変換といった「流動的知能」の中核能力を測定することを目的としています。
- オープン/クローズド双方のMLLMを評価した結果、最上位モデルでも精度は50%未満にとどまり、人間は約80%の精度を達成しました。
- 誤りの分析では、モデルの失敗は( i )視覚的注意の配分の問題、( ii )内部の知覚操作の不十分さ、( iii )基となる視覚概念の抽象化の弱さに主に起因することが示されました。
- 著者らは、現状のマルチモーダルLLMは人間に比べて視空間推論が限定的であり、より認知に根ざした評価枠組みが必要だと結論づけています。


