AI Navigate

離散記号理解における多模態大規模言語モデルの認知的不一致

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、言語・文化・数学・物理・化学にわたる離散記号理解を対象とした多模態大規模言語モデルを評価するベンチマークを提案する。
  • 基本的な記号認識には苦戦する一方、いくつかの推論タスクでは驚くべき高い性能を示す認知的不一致を報告し、それが真の知覚ではなく言語的確率に依存していることを示唆している。
  • この知見は、科学的発見を支える象徴的言語を真に知覚・理解する能力において、現在のAIに重大なギャップがあることを明らかにしている。
  • 本研究は、より厳密で人間に適合した知的システムを開発するためのロードマップを提供する。

要旨:マルチモーダル大規模言語モデル(MLLMs)は、自然な場面の解釈において顕著な成功を収めてきましたが、人間の認知を構成する基本的な要素である離散的シンボルを処理する能力は、依然として重要な未解決の課題です。連続的な視覚データとは異なり、数学的式、化学構造、言語文字などの離散的シンボルは、正確でより深い解釈を必要とします。本研究は、トップクラスのMLLMがこれらの「離散的意味空間」を、言語、文化、数学、物理学、化学の5つの領域にわたってどのように扱うかを評価するための包括的なベンチマークを提案します。我々の調査は、直感に反する現象を浮き彫りにします:モデルは基本的なシンボルの認識でしばしば失敗しつつ、複雑な推論タスクには成功することがあり、真の視覚知覚というよりも言語的確率に依存していることを示唆します。この「認知的不一致」を露呈することにより、現在のAI能力には大きなギャップがあることを浮き彫りにします。すなわち、科学的発見と抽象的思考を支える象徴的言語を真に知覚し理解することの困難です。本研究は、より厳密で人間に適合した知的システムを開発するためのロードマップを提供します。