インサイトによる推論学習：非形式的定理証明のために

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMのための非形式的定理証明が「インサイト」の欠如によってボトルネック化しており、特に複雑な問題を解くために必要な中核的手法を見抜く力が難所だと主張します。
提案するのは新しい枠組みと、DeepInsightTheoremという階層型データセットで、最終証明に加えて中核的手法や証明スケッチを明示的に抽出します。
このデータセットを活かすために、人間の学習プロセスを模したProgressive Multi-Stage SFT（段階的SFT）学習戦略を設計し、基本的な証明作成からインサイトのある推論へ段階的に導きます。
難度の高い数学ベンチマークでの実験では、インサイトを意識した生成戦略がベースラインを大きく上回ることが示されます。
全体として、モデルに「中核的手法を見つけて適用する」ことを明示的に教えると、数学的推論能力が大きく改善し得ることを示唆しています。

Abstract

ほとんどの自動定理証明アプローチは形式的な証明システムに依存していますが、非形式的な定理証明は、自然言語処理における大規模言語モデル（LLM）の強みとよりよく整合し得ます。本研究では、非形式的な定理証明における主要なボトルネックが「洞察の欠如」であること、つまり複雑な問題を解くために必要な中核となる手法を認識することが難しい点にあることを特定します。これに対処するために、必要不可欠な推論スキルを育成し、LLMが洞察に基づく推論を行えるようにする新しい枠組みを提案します。私たちは、最終的な証明とともに、コアとなる手法と証明スケッチを明示的に抽出して非形式的な証明を構造化する階層型データセット

mathtt{DeepInsightTheorem}

を提案します。このデータセットを最大限に活用するために、人間の学習プロセスを模倣するプログレッシブなマルチステージSFT戦略を設計し、モデルを基礎的な証明文の作成から洞察に基づく思考へ導きます。難しい数学的ベンチマークに対する実験の結果、洞察を意識した生成戦略がベースラインを大きく上回ることが示されました。これらの結果は、モデルにコアとなる手法を識別し適用するよう教えることで、数学的推論を大幅に改善できることを示しています。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

インサイトによる推論学習：非形式的定理証明のために

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer