Goedel-Code-Prover: オープンな最先端コード検証の階層的証明探索

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Lean 4 における自動コード検証のための階層的証明探索フレームワークを提案し、戦術レベルの証明を行う前に、複雑な検証目標をより単純なサブゴールに分解します。
  • 原理に基づく分解スコアを導入し、それを訓練報酬と推論時のランキング基準の双方として機能させ、最適化とデプロイメントの整合を図る。
  • Goedel-Code-Prover-8B は、教師あり初期化の後にハイブリッド強化学習で訓練され、分解と完了の双方に対して単一の統一ポリシーを用います。
  • Lean に基づく3つのベンチマーク合計427タスクにおいて、モデルは証明成功率62.0%を達成し、最強のベースラインより2.6倍の改善を示し、より大規模なニューラル・プロバーと比較してスケーラブルで効率的な推論を実証します。

要旨: 大規模言語モデル(LLMs)はもっともらしいコードを生成できるが、その正確性の保証には限界がある。
実装が仕様を満たすことを形式的に検証するには、機械で検証可能な証明を構築する必要があり、それは現在の自動化能力を超える作業である。
Lean~4 における自動コード検証のための階層的証明探索フレームワークを提案する。複雑な検証目標を、戦術レベルの証明を試みる前に、構造的により単純なサブゴールへ分解する。
本手法の核心は、建設的正当化と構造的有効性を組み合わせた原理的な分解スコアである。
特に、このスコアは学習報酬と推論時のランキング基準の双方として機能し、最適化と実運用の間の厳密な整合性を保証する。
私たちは Goedel-Code-Prover-8B を、分解と完遂の両方のための単一の統一ポリシーとして、教師付き初期化を経てハイブリッド強化学習を行い、連続的な分解報酬が計画探索を駆動する一方、教師付きリプレイが証明生成を安定させる。
Leanベースのコード検証ベンチマーク3つ、計427タスクを含む。私たちの8Bパラメータモデルは62.0%の証明成功率を達成し、最も強力なベースラインより2.6倍の改善を示し、最大で84倍大きいニューラル証明器を超える。
さらに、推論時のスケーリングは一貫して観察される。探索繰り返し回数とサンプリング予算の増加に伴い成功率は単調に改善し、我々の訓練済みモデルは同規模の最前線の市販モデルよりも高い効率を達成する。