コンパイルで圧縮する：コンパイラ出力で形式的定理証明器を強化する

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLM支援の形式的定理証明におけるテスト時計算コストの高さを、コンパイラが多様な証明試行を小さな構造化された失敗モードへ圧縮する点に着目して解消しようとする。
コンパイル出力の圧縮性を活用する学習・改良（learning-to-refine）フレームワークを提案し、効率的な学習と証明探索を実現する。
明示的な検証器（verifier）のフィードバックに基づく局所的な誤り訂正を行うツリーサーチにより、長い証明試行履歴を積み上げるコストを回避する。
実験では、提案手法が基盤の定理証明器の推論能力を、さまざまなモデル規模にわたって一貫して押し上げることを示す。
公開されている約8Bおよび約32Bパラメータのモデルで、同等のテスト時予算のもとPutnamBenchにて最先端性能を報告しており、検証器誘導推論のスケーラブルな指針を示す。

要旨: 大規模言語モデル（LLM）は形式的定理証明において大きな可能性を示している一方で、最先端の性能を得るには、巨大なロールアウトや拡張されたコンテキストウィンドウによる、しばしば禁止的なテスト時計算が必要となることが多い。本研究では、形式的検証における有益な構造を活用することで、このスケーラビリティのボトルネックに取り組む。すなわち、コンパイラが、多様な証明試行の膨大な空間を、コンパクトな形で構造化された失敗モードの集合へと写像している、という観察である。我々は、この圧縮を利用して効率的な学習と証明探索を行う、learning-to-refine（洗練のための学習）フレームワークを提案する。明示的な検証器からのフィードバックに条件付けて、誤りを局所的に修正する木探索を行うことで、証明試行の長い履歴を蓄積することに伴うコストを回避する。大規模な評価により、本手法が、規模が異なる状況においても、基礎となる証明器の推論能力を一貫して増幅することを示す。特に我々のアプローチは、同程度のテスト時予算の下で、公に報告されている約 $8B$ および約 $32B$ パラメータのモデルにおいて、PutnamBenchで最先端の性能を達成し、次世代の検証器ガイド付き推論のためのスケーラブルなパラダイムを提供する。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

コンパイルで圧縮する：コンパイラ出力で形式的定理証明器を強化する

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer