FormalEvolve: 多様で証明器に有効な自動形式化のためのニューラル-シンボリック進化探索

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FormalEvolve は、LLM駆動の突然変異と交叉、境界付きパッチ修復、象徴的ASTの書換えを組み合わせるニューラル-シンボリック進化フレームワークであり、多様で証明器に適した自動形式化を生成します。
このアプローチは自動形式化を、資源制約下で証明器の性能を最適化するための、意味的に一貫したレパートリーの予算付き・実行時探索として再定義します。
CombiBench および ProofNet に対してジェネレーター呼び出し予算を T=100 として評価した結果、FormalEvolve は意味的ヒット率 SH@100 をそれぞれ 58.0% および 84.9% に達成し、意味的成功の問題間集中度を低下させる（ジニ係数が低下）。
固定の証明器予算の下で、手法は下流の証明性能を向上させ、コードを公開する予定である。

要約: 自然言語の数学をコンパイル可能で機械検証可能な命題へ翻訳することを自動公式化は目指します。しかし、意味的一貫性が証明器の有効性を意味するわけではありません。意味的に一貫した形式化であっても、証明探索コストと成功率には大きな差が生じることがあります。本研究では、意味的一貫したレパートリを予算付きの推論時探索として定式化し、コンパイル制御型ニューローシンボリック進化フレームワークである FormalEvolve を提案します。FormalEvolve は、境界付きパッチ修復を伴うLLM駆動の変異と交叉により多様な候補を生成します。一方、記号的抽象構文木（AST）書換操作は、構造的多様性をさらに付与します。CombiBench と ProofNet において、厳密なジェネレーター呼び出し予算を T = 100 と設定すると、FormalEvolve は意味的ヒット率（SH@100）をそれぞれ 58.0% および 84.9% に達し、意味的成功の問題間集中を低減させる（ジニ係数が低下する）。固定された証明器予算の下でも、FormalEvolve は CombiBench における下流の証明性能を改善します。コードは公開されます。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

FormalEvolve: 多様で証明器に有効な自動形式化のためのニューラル-シンボリック進化探索

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer