Stepwise: 自動システム検証のためのニューラル-シンボリック証明探索

arXiv cs.AI / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本記事は、ニューラル-シンボリックな証明生成フレームワークを紹介します。これは大型言語モデルと対話的定理証明を組み合わせ、システム検証の証明探索を自動化します。
証明状態に対して最善優先の木探索を用い、次の候補証明手順を繰り返し大型言語モデルに照会し、証明状態-手順ペアを用いてLLMをファインチューニングします。
記号的側面では、ITPツールを統合して却下された手順を修正し、証明状態をフィルタリング・ランク付けし、進展が滞った場合にはサブゴールを自動的に解消します。
新しい Isabelle REPL 上に実装され、seL4 ベンチマークで高い成果を挙げ、定理の最大 77.6% を証明し、従来の LLM ベースのアプローチと Sledgehammer を上回り、良好な一般化能力を示します。

要約: 対話型定理証明による形式的検証は、重要なシステムの正確性を保証するためにますます広く用いられていますが、大規模な証明スクリプトの作成は依然として高度な手作業を要し、スケーラビリティを制約しています。特に数学的推論における大規模言語モデル（LLM）の進歩は、ソフトウェア検証への統合をますます有望にしています。本論文は、システムレベルの検証プロジェクトの証明探索を自動化するよう設計された神経-シンボリック証明生成フレームワークを紹介します。フレームワークは、証明状態上でベストファースト（優先度付き）ツリー探索を実行し、次の候補証明手順を繰り返しLLMに問い合わせます。ニューラル側では、証明状態と手順のペアのデータセットを用いてLLMsをファインチューニングします。シンボリック側では、却下された手順を修正するための幅広いITPツールを組み込み、証明状態をフィルタリング・ランク付けし、探索の進捗が停滞したときにはサブゴールを自動的に解消します。この相乗効果により、データ効率の高いLLM適応と意味情報に基づく探索空間の絞り込みが可能になります。新しいIsabelle REPL上にフレームワークを実装し、細粒度の証明状態と自動化ツールを公開し、FVEL seL4ベンチマークおよび追加のIsabelle開発で評価します。seL4では、システムは定理の最大77.6\%を証明し、従来のLLMベースのアプローチおよび単独のSledgehammerを大幅に凌駕し、より多くの多段証明を解決します。他のベンチマークにおける結果は、強い一般化を示しており、スケーラブルな自動ソフトウェア検証への有効な道を示唆しています。