要旨: 多モーダル大規模言語モデル(MLLM)の最近の進展は、知覚と推論における目覚ましい進歩を示しており、それらが身体性を備えた知能(embodied intelligence)の可能性を持つことを示唆している。近年の研究では、インタラクティブな環境において身体性を備えたMLLMを評価しているが、現在のベンチマークは主として、外部の対象を知覚し、理解し、相互作用する能力を対象としており、自己中心的な知能を体系的に評価することは欠けている。これに対処するため、心理学における古典的な鏡像自己認識(Mirror Self-Recognition: MSR)テストに着想を得た、シミュレーションベースのベンチマークであるMirrorBenchを導入する。MirrorBenchは、このパラダイムを段階的に難易度を上げていくタスクの階層化フレームワークを通じて、身体性を備えたMLLMへと拡張し、基本的な視覚知覚から高次の自己表象に至るまで、エージェントを評価する。主要なMLLMに関する実験では、最も低いレベルにおいてさえ、その性能が人間の性能に比べて大幅に劣っていることが示され、自己参照的な理解における根本的な限界が明らかになった。本研究は、心理学のパラダイムと身体性を備えた知能を橋渡しし、大規模モデルにおいて一般知能が出現することを評価するための原理に基づく枠組みを提供する。プロジェクトページ: https://fflahm.github.io/mirror-bench-page/.
MirrorBench:ミラーを導入してMLLMにおける自己中心的知能を評価する
arXiv cs.AI / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、MLLM(マルチモーダル大規模言語モデル)の「自己中心的知能」を評価するためのシミュレーション型ベンチマーク「MirrorBench」を提案し、従来のベンチマーク(外部の対象理解を中心とする)を超える点を示しています。
- MirrorBenchは心理学のミラー自己認識(MSR)テストに着想を得ており、基礎的な視覚知覚から高次の自己表象まで、難易度を段階的に引き上げるタスク群で評価します。
- 主要なMLLMを用いた実験では、最も低いレベルにおいても人間の性能に比べて大幅に劣ることが示され、自己言及的理解に関する根本的な限界が示唆されます。
- 著者らは、心理学的な自己認識の枠組みと身体性を持つ知能の評価を結びつけ、大規模モデルにおける一般知能の出現を測るための原理的な枠組みを提示しています。



