要旨: 類推推論は、人間の認知における基本的な側面を検証する。すなわち、ある一組の対象物の関係を別の一組へと対応づけることである。マルチモーダル大規模言語モデル(MLLMs)におけるこの能力の既存の評価は、複数の情報源からルールを合成する能力という、より高次の知能を構成する重要な要素を見落としている。このギャップを埋めるために、CARV(Visionにおける合成的類推推論)を導入する。これは新しいタスクであり、最初の診断ベンチマークとして5,500サンプルのデータセットとともに提示される。類推を単一の組から複数の組へと拡張することで、MLLMは各組から記号的ルールを抽出し、それらを合成して新しい変換を作り出すことが求められる。最先端のMLLMsに対する評価の結果、看過できない性能の差が明らかになった。すなわち、Gemini-2.5 Proでさえ40.4%の精度にとどまり、人間レベルの100%を大きく下回っている。診断的分析により、失敗の主要なパターンが2つ、一貫していることが示された。(1)視覚的変化を記号的ルールへ分解できないこと、そして(2)多様あるいは複雑な設定下でも頑健性を維持できないこと。これらは、本タスクにおける現行のMLLMsの限界を浮き彫りにしている。
CARV:マルチモーダルLLMにおける構成的類推推論のための診断ベンチマーク
arXiv cs.AI / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 全体として、結果は、構成的なルール抽出と信頼できるルール合成が必要となる場合における、マルチモーダルLLMの推論に関する現在の限界を浮き彫りにしている。