FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?
arXiv cs.AI / 3/31/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- FormalProofBenchは、自然言語の数学問題とLean 4の形式文を対応させ、モデルがLean 4チェッカーで受理される形式証明を出せるかを評価する非公開ベンチマークを提案しています。
- 対象は解析・代数・確率・論理など幅広く、上級学部から大学院レベルの問題(qualifying examsや教科書)を用いています。
- 複数の最先端基盤モデルをエージェント型の実行ハーネスで評価した結果、最高性能モデルでも正解率は33.5%にとどまり、その後は急速に低下したと報告されています。
- 精度に加えて、ツール利用状況、失敗モード、コスト、レイテンシなども分析し、形式定理証明における現状の能力と限界を包括的に示しています。
Related Articles
Why AI agent teams are just hoping their agents behave
Dev.to
Harness as Code: Treating AI Workflows Like Infrastructure
Dev.to
How to Make Claude Code Better at One-Shotting Implementations
Towards Data Science
The Crypto AI Agent Stack That Costs $0/Month to Run
Dev.to
Bag of Freebies for Training Object Detection Neural Networks
Dev.to