Mind’s Eye：マルチモーダルLLMのための視覚的抽象化・変換・構成ベンチマーク

arXiv cs.CV / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は「Mind’s Eye」を提案し、A-R-T（Abstraction–Relation–Transformation）という分類にもとづく8つのタスクでマルチモーダルLLMの視覚的な認知・空間推論を評価します。
このベンチマークは、パターン誘導、類比的な関係の対応づけ、心的な変換といった「流動的知能」の中核能力を測定することを目的としています。
オープン／クローズド双方のMLLMを評価した結果、最上位モデルでも精度は50%未満にとどまり、人間は約80%の精度を達成しました。
誤りの分析では、モデルの失敗は( i )視覚的注意の配分の問題、( ii )内部の知覚操作の不十分さ、( iii )基となる視覚概念の抽象化の弱さに主に起因することが示されました。
著者らは、現状のマルチモーダルLLMは人間に比べて視空間推論が限定的であり、より認知に根ざした評価枠組みが必要だと結論づけています。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、視覚と言語のベンチマークで目覚ましい進歩を遂げてきましたが、視覚的認知および視空間的推論に関する能力は、いまだ十分に理解されていません。私たちは、「Mind's Eye（心の目）」を提案します。これは、古典的な人間の知能検査に着想を得た8つの視覚認知タスクからなる複数選択式ベンチマークであり、新たな「A-R-T」タクソノミー（Abstraction（抽象化）、Relation（関係付け）、Transformation（変換））のもとに整理されています。このタスクは、パターンの帰納、類推に基づく関係の対応付け、心的な変換といった、流動性知能の中核となるプロセスを検査します。私たちは、クローズドソースおよびオープンソースの多様なMLLM群を評価し、その性能を人間の参加者と比較します。人間は80%の正解率を達成しますが、最高性能のMLLMでも50%未満にとどまります。誤りの分析により、失敗の原因は次の点にあることが明らかになりました：（i）視覚的注意の割り当て、（ii）内部の知覚操作、（iii）基盤となる視覚概念の抽象化が弱いことです。これらの結果は、現在のMLLMが、人間の参加者と比べて視空間的推論能力が限定的であることを示唆しており、より認知に根ざした評価フレームワークの必要性を浮き彫りにします。

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

Mind’s Eye：マルチモーダルLLMのための視覚的抽象化・変換・構成ベンチマーク

要点

関連記事

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer