視認は方位認識ではない:認知的根拠に基づくベンチマークがMLLMs(多モーダル大規模言語モデル)における体系的な方位認識の失敗を明らかにする(補足)
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DORIは、物体の方位を主要な対象とし、これを四つの次元に分解して、粗いレベルと細かなレベルで評価する認知的根拠に基づくベンチマークです。
- 14のソースから13,652枚の画像を使用して、67個の物体カテゴリにまたがる33,656問の多肢選択問題を作成し、境界ボックスアイソレーション、標準化された空間参照フレーム、方位を分離するための構造化プロンプトを提供します。
- 最先端の視覚言語モデル24件を評価したところ、一般的な空間課題で強いモデルは方位推論ではほぼランダムであり、最高でも粗い判断54.2%、細かな判断45.0%でした。
- 結果は、方位理解がマルチモーダル系にとって未解決の課題であることを示し、ロボット操作、3Dシーン再構築、人間-AIの相互作用に影響を与えます。
人間は物体の向きを認識することから始め、次にそれを心の中で回転させ、物体間の向きについて推論するという順序で、物体の方位を段階的に学習します。現在の視覚言語ベンチマークは、方位と位置および一般的なシーン理解を大部分で混同しているといえます。我々は、Discriminative Orientation Reasoning Intelligence (DORI)を導入します。認知的根拠に基づく階層的ベンチマークで、物体の方位を主要な対象とします。人間の方位認識の段階に触発され、DORIは方位を4つの次元に分解し、各次元を粗い(カテゴリ的)レベルと細かな(メトリック)的レベルで評価します。14ソースから13,652枚の画像で構成されるDORIは、現実世界と合成設定の67の物体カテゴリをカバーする33,656問の多肢選択問題を提供します。その粗さから細かなレベルへのデザインは、境界ボックスのアイソレーション、標準化された空間参照フレーム、構造化されたプロンプトを通じて、方位を物体認識の難易度、シーンの雑然さ、言語的曖昧さといった混乱因子から分離します。24件の最先端視覚言語モデルを評価したところ、一般的な空間ベンチマークで高い性能を示すモデルほど、物体中心の方位タスクにおいてはほぼランダムであるという明確な傾向が見られました。最高のモデルでも粗い判断で54.2%、細かな判断で45.0%にとどまり、複合的な回転や物体間の参照フレームの移動で最大の失敗を示しました。粗さと細かなレベルの間に大きなギャップがあることは、幾何推論よりもカテゴリ的ヒューリスティックに依存していることを示しており、既存のベンチマークには見落とされがちな制限です。これらの結果は、方位理解がマルチモーダルシステムの未解決課題であることを示しており、ロボット操作、3Dシーン再構築、および人間とAIの相互作用に示唆を与えます。