要旨:自動定理証明(ATP)ベンチマークは主に MathLib で形式化された問題で構成されており、現在の ATP の訓練と評価は MathLib の定義的フレームワークに大きく偏っています。しかし、先端数学は多くが探索的でプロトタイプ重視であり、標準ライブラリから逸脱する独自の構成に依存することが多いです。本研究では、新しい定義的フレームワークに適用したときの現在の ATP システムの頑健性を評価し、特に標準ライブラリの問題と独自の数学的構成との性能差を検討します。私たちは TaoBench を導入します。これは Terence Tao の Analysis I を基にした学部レベルのベンチマークで、標準の Mathlib 定義に依存せず、分析を一から構築して核心的な数学概念を形式化するものであり、ゼロからの構築と MathLib の構築を混在させるものです。公正な評価のため、各問題について自動的にコンパイル可能で自己完結型のローカル環境を抽出するエージェント型のパイプラインを構築します。定義的フレームワークの影響を分離するため、さらに各問題を数学的に等価な Mathlib 形式へ翻訳し、直接比較できる TaoBench-Mathlib の対になった命題を作成します。最先端の ATP モデルは MathLib フレームワーク内で有能に機能しますが、定義的に等価な Tao 形式では平均およそ 26% の性能低下が見られます。これは主なボトルネックがタスクの難易度ではなく、定義フレームワーク間の一般化の制約にあることを示しています。TaoBench はしたがって、ベンチマークの性能と適用可能性の間にギャップがあることを浮き彫りにし、研究数学により適合する定理証明器の開発と検証を進めるための具体的な基盤を提供します。
返却形式: {"translated": "翻訳されたHTML"}


