TaoBench: 自動定理証明器用の大規模言語モデルは MathLib を超えて一般化できるか？

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

TaoBench は Terence Tao の Analysis I に由来する学部レベルのベンチマークとして導入され、標準の Mathlib の定義に依存せず、基本的な数学概念をゼロから構築することによって解析を形式化し、ゼロからの構築と MathLib の構成の両方を含みます。
著者らは、各問題に対してコンパイル可能で自己完結したローカル環境を自動的に抽出し、すべての問題を Mathlib に翻訳して、直接比較できる TaoBench–Mathlib の対になる命題を作成する、エージェント的なパイプラインを構築しています。
標準の MathLib 問題では ATP モデルは有意に機能しますが、定義上異なる TaoBench の定式化に対して平均約26%のパフォーマンス低下が見られ、タスクの難易度ではなく定義的枠組み間の一般化の限界が主なボトルネックであることを示しています。
TaoBench は、ベンチマークの性能と研究数学における実用性とのギャップを浮き彫りにし、探索的な数学作業により適合した証明器を開発するための具体的な基盤を提供します。

要旨：自動定理証明（ATP）ベンチマークは主に MathLib で形式化された問題で構成されており、現在の ATP の訓練と評価は MathLib の定義的フレームワークに大きく偏っています。しかし、先端数学は多くが探索的でプロトタイプ重視であり、標準ライブラリから逸脱する独自の構成に依存することが多いです。本研究では、新しい定義的フレームワークに適用したときの現在の ATP システムの頑健性を評価し、特に標準ライブラリの問題と独自の数学的構成との性能差を検討します。私たちは TaoBench を導入します。これは Terence Tao の Analysis I を基にした学部レベルのベンチマークで、標準の Mathlib 定義に依存せず、分析を一から構築して核心的な数学概念を形式化するものであり、ゼロからの構築と MathLib の構築を混在させるものです。公正な評価のため、各問題について自動的にコンパイル可能で自己完結型のローカル環境を抽出するエージェント型のパイプラインを構築します。定義的フレームワークの影響を分離するため、さらに各問題を数学的に等価な Mathlib 形式へ翻訳し、直接比較できる TaoBench-Mathlib の対になった命題を作成します。最先端の ATP モデルは MathLib フレームワーク内で有能に機能しますが、定義的に等価な Tao 形式では平均およそ 26% の性能低下が見られます。これは主なボトルネックがタスクの難易度ではなく、定義フレームワーク間の一般化の制約にあることを示しています。TaoBench はしたがって、ベンチマークの性能と適用可能性の間にギャップがあることを浮き彫りにし、研究数学により適合する定理証明器の開発と検証を進めるための具体的な基盤を提供します。

返却形式: {"translated": "翻訳されたHTML"}

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

TaoBench: 自動定理証明器用の大規模言語モデルは MathLib を超えて一般化できるか？

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？