Discover and Prove:Lean 4向けの「難所モード」自動定理証明を行うオープンソースのエージェント型フレームワーク
arXiv cs.AI / 2026/4/20
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文では、最終結果が形式文の中に埋め込まれている前提を置かず、まず答えを独力で発見してから形式的なLean 4の証明を組み立てる「Hard Mode(難所モード)」の自動定理証明を提案しています。
- MiniF2F-Hard と FIMO-Hard という、専門家が再アノテーションしたHard Mode向けベンチマークを公開し、より現実的なATP評価を可能にします。
- Discover And Prove(DAP)というエージェント型フレームワークを導入し、LLMの自然言語推論と明示的な自己反省を用いて候補解を発見した後、既存のATPプロバに渡せる「Easy Mode」へ問題文を書き換えます。
- DAPは状態水準(SOTA)を更新し、CombiBenchでは解けた問題数を7から10へ(Pass@16)引き上げ、PutnamBenchではHard Modeで36の定理を形式的に証明した初のシステムとなりました。
- さらに、性能差として、上位のLLMは同一問題で80%超の正答率を示す一方、形式的な証明器は10%未満にとどまることを報告しており、Hard Modeベンチマークが現実の「発見」に関する限界をより適切に測れていることを示唆しています。



