Discover and Prove：Lean 4向けの「難所モード」自動定理証明を行うオープンソースのエージェント型フレームワーク

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この論文では、最終結果が形式文の中に埋め込まれている前提を置かず、まず答えを独力で発見してから形式的なLean 4の証明を組み立てる「Hard Mode（難所モード）」の自動定理証明を提案しています。
MiniF2F-Hard と FIMO-Hard という、専門家が再アノテーションしたHard Mode向けベンチマークを公開し、より現実的なATP評価を可能にします。
Discover And Prove（DAP）というエージェント型フレームワークを導入し、LLMの自然言語推論と明示的な自己反省を用いて候補解を発見した後、既存のATPプロバに渡せる「Easy Mode」へ問題文を書き換えます。
DAPは状態水準（SOTA）を更新し、CombiBenchでは解けた問題数を7から10へ（Pass@16）引き上げ、PutnamBenchではHard Modeで36の定理を形式的に証明した初のシステムとなりました。
さらに、性能差として、上位のLLMは同一問題で80%超の正答率を示す一方、形式的な証明器は10%未満にとどまることを報告しており、Hard Modeベンチマークが現実の「発見」に関する限界をより適切に測れていることを示唆しています。

Abstract

ほとんどのATPベンチマークは、最終回答を形式的な主張の中に埋め込んでいます――これを私たちは「Easy Mode（イージーモード）」と呼びます。この設計は、人間の競技者が直面する状況に比べて課題を単純化しており、モデル能力についての楽観的な推定につながる可能性があります。より厳格で、より現実的な設定を「Hard Mode（ハードモード）」と呼びます。Hard Modeでは、システムは形式的な証明を構築する前に、答えを独立して発見しなければなりません。Hard Modeの研究を可能にするために、私たちは2つの貢献を行います。第一に、広く使われている2つのATPベンチマークの、専門家による再注釈（expert-reannotated）版であるMiniF2F-HardとFIMO-Hardを公開します。第二に、Discover And Prove（DAP）というエージェント型フレームワークを導入します。このフレームワークは、LLMの自然言語による推論と明示的な自己反省を用いて答えを発見し、その後、既存のATPプローバ向けにHard Modeの主張を書き換えてEasy Modeの主張にします。DAPは最先端の成績を更新します。CombiBenchでは、解けた問題数を7（従来のSOTA、Pass@16）から10へ引き上げます。PutnamBenchでは、Hard Modeにおいて36の定理を形式的に証明した最初のシステムです。しかも同時に、形式的なプローバが10%未満であるのに対し、同じ問題において最先端のLLMが80%超の回答精度を上回っていることを明らかにします。これは、Hard Modeベンチマークが独自に測定に適している、実質的なギャップを浮き彫りにしています。

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

Discover and Prove：Lean 4向けの「難所モード」自動定理証明を行うオープンソースのエージェント型フレームワーク

要点

Abstract

関連記事

Black Hat USA

ブラックハット・アジア

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer