Math Takes Two:コミュニケーションにおける創発的な数学的推論を測るテスト

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「Math Takes Two」を提案し、言語モデルが学習した数学的構文に基づく単なるパターン照合ではなく、本当の数学的推論を示せるかを評価することを目的としています。
  • 既成の記号数学の慣習を用いるのではなく、数学の事前知識を持たない2つのエージェントが、通信を通じて共通の記号プロトコルを共同で発明することを要求します。
  • タスクは視覚に基づいており、外挿を可能にするための数値システムを利用して、潜在構造や表現を最初から発見できるかを検証します。
  • 本ベンチマークは、人間の数学的認知が正確なコミュニケーションの必要性とともに共進化したという仮説に動機づけられており、創発的な数値推論能力を持つモデルを構築・評価する新しい視点として位置づけられています。

要旨: 言語モデルが数学的ベンチマークで目覚ましい性能を示す一方で、それが真の数学的推論を反映しているのか、学習した形式文法に対する統計的なパターン照合を反映しているのかは依然として不明です。既存の多くの評価は、確立された数学的慣例に基づく記号論理的な問題に依拠しており、第一原理から抽象概念を構築するモデルの能力についての洞察が制限されています。本研究では、コミュニケーションを通じて数学的推論の創発を評価するための新しいベンチマークである Math Takes Two を提案します。人間における数学的認知が、正確なコミュニケーションの必要性とともに共進化したという仮説に動機づけられ、我々のベンチマークは、事前の数学的知識なしに2つのエージェントが、数値システムの利用が外挿を促進する視覚的に基づいた課題を解くために、共有された記号プロトコルを発展させることができるかどうかを検証します。多くの現在のデータセットとは異なり、我々のベンチマークは事前に定義された数学的言語を避け、その代わりとして、潜在的な構造と表現をゼロから発見することを求めます。したがって Math Takes Two は、創発的な数値的推論能力を備えたモデルを開発し、評価するための新しい視点を提供します。