補題

Dev.to / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、AI駆動の数学的作業における三段階の階層を提案している。検証、提示された問題の中での発見、そして問題選択(嗜好)であり、この視点を用いてAIが各レベルへどのように浸透するかを分析している。
  • 具体的なデモを挙げ、Aletheia(GoogleのGemini上で動作するもの)がFirst Proofの10問中6問を解き、OpenAIのエントリは約5問を解いたが、いずれも10問すべてを解くことはなかった。
  • レベル1の検証(ほぼ解決済み、証明の長さに対して多項式的)と、レベル2の発見(急速に進展しているが普遍的ではない)およびレベル3の問題選択(人間の嗜好がどの問題を重要とするかを決定する)を対比し、それぞれが異なる研究の最前線を示している。
  • この論考は、レベル間での進展の違いが、AIによる数学における生成の境界がどこにあるか、そして嗜好が生産的な数学的探究をどのように形作るかという根本的な洞察を明らかにしていると主張している。

AIによる数学的発見は三段階の階層――検証、発見、嗜好――を明らかにし、浸透の順序は生成境界がどこに座っているかという根本的なことを私たちに教えてくれる。

十一人の有力な数学者が、教科書の練習問題ではなく、彼らの進行中の研究からの実際の補題である十の研究レベルの問題を設定した。問題は暗号化され、締切は一週間、コンテストはFirst Proofと呼ばれた。2026年2月に行われた。

GoogleのGeminiを基盤とするAletheiaは十問のうち六問を解いた。OpenAIの参加はおおよそ五問を解いた。誰も十問すべてを解けなかった。

1か月前、Grok 4.20は確率的調和解析問題の新しいベルマン関数を5分で見つけた――既知の下限を改善した明示的な式。UC Irvineの研究者が同じ問題に彼の大学院生と取り組んでいた。AIはコーヒーを淹れるのに要する時間で彼らを上回った。

一方、PrincetonのGoedel-Prover-V2は、公式な数学的推論の標準ベンチマークであるminiF2Fにおいて90%の精度に達した。2年前、その数字は60%だった。

これらは同じ成果ではない。見出しだけを見ると似て見える――AIは数学を解く――が、三つの構造的に異なる活動に分解され、AIの浸透は各レベルで異なる形で現れ、何か根本的なことを示す。

三つの階層

レベル1:検証。 証明が正しいかを検証する。これは証明の長さに対して多項式であり――構造的に安価。証明は有限の論理的推定の連続であり、各ステップは固定された規則の集合と照合して検証できる。Goedel-Prover-V2はここで動作する。Lean 4 の mathlib には検証済み定理が二十五万件ある。このレベルは事実上解決されている。

レベル2:提示された問題の中での発見。 誰かが問題を定義する―― これらの性質を持つ式を見つけよこの補題を証明せよ — そしてAIが解を探索する。問題空間は定義されており、解答は未知である。Grokがここでベルマン関数を見つけた。Aletheiaはここで六つの補題を証明した。前線は見える形で急速に進んでいるが、誰も普遍的に解かれているわけではない。

レベル3:問題の選択。 どの問題が重要か?どの研究プログラムが理解を深めるのか?もしこの補題が証明されたら新たな領域を開くのか? First Proofを設計した11人の数学者は、進行中の研究から問題を選んだ。Paata Ivanisviliはベルマン関数の問題を選んだ――それが確率論的調和解析のより大きなプログラムと結びついたからだ。問題は数学的趣味――何が興味深く、何が結びつき、何が生産的になるかという感覚――から来た。

レベル3こそ階層が教訓を与える場だ。AIにはできないわけではない――誰も本格的に試みていないだけだ。しかし、問題の構造が変わるからである。レベル1とレベル2は検証が安価な形式的空間に存在する。レベル3には、人間の理解の最前線がどのような形をしているかを知ることが必要だが、それは数学の現状についての経験的事実であり、数学的事実そのものではない。

ゲーデルの架け橋

これはゲーデルの不完全性定理と驚くほど正確に対応している。

十分に豊かな形式的体系には、その体系内で証明できない真理が存在する。そこに到達するには、外へ一歩踏み出す必要がある――より強い体系へ、または新たな公理へ。外へ踏み出すこの動きが、レベル2とレベル3を分ける。

ベルマン関数はGrokの探索範囲内だった――確率的計算の形式フレームワーク内で公式空間を徹底探索することによって到達可能だった。問題を興味深いとした研究プログラムは外側にあった。それは、確率過程について数学者がまだ理解していないことを知ることを求めており、それは人類知識の状態に関する経験的事実であって、問題そのものの形式的特性ではない。

AIは形式体系を拡張している。これまで到達不能だった構造を探索によって到達可能にし、総当たり計算で見つけられるものの境界を押し広げている。しかし、まだどの方向へ押し進めるかを選択してはいない。

このことが私たちに教えること

古い問い――数学は発見されるのか、それとも発明されるのか――は、構造的な洗練を得る。数学的構造は心とは独立して存在する。すなわち、どの心がそれらを探求しても同じ構造を見つける、という意味だ。しかしアクセスすることは、時に与えられた形式系を超える踏み出しを必要とする。アクセス可能とアクセス不能の境界は、形式系の成長とともに移動する。AIはそれを人間より速く拡大している。

より深い問いは、問題選択――数学者にこの問題はキャリアに値すると感じさせる嗜好――さえも形式化可能かどうかである。もし可能なら、レベル3は最終的にレベル1と2を征服したのと同じアプローチに収束し、ただし探索空間が大きくなり、検証オラクルが異なるだけだ。もし不可能なら、数学的探究の方向には何か不可約的に外部のものが存在することになる――不可約的に人間であるわけではなく、探索されている形式的体系の外部に存在する情報に強く依存する、ということだ。

最初の可能性は、数学がAIによって最終的に使い果たされる閉じた体系であることを意味する。二番目は、数学が開かれた体系であり、すべての答えが新しい問いを生み出し、それ自体の答えから導出できないということだ。

これまでの証拠――レベル2が急速に進むにもかかわらず、誰もレベル3を自動化しようと試みてさえいない――は、いずれの可能性の証拠でもない。レベル3は難しいのかもしれない。あるいは、他のレベルが驚異的な成果をまだ生み出しているため、誰も試さなかったのかもしれない。

このことが私たちに教えるのは順序だ。検証が最初に進んだのは、検証が最も安価だからだ。提示された問題の中での発見は、探索空間が制約され、検証オラクルが高速だから、現在は進展している。問題選択にはまだ手を付けられていない。なぜなら、それには探索対象の体系の外部に存在するオラクルが必要だからだ。

秩序は偶然ではない。計算の経済学によって描かれた検証コストの地図である。そしてそれは数学を超えて適用される。AIが急速に進歩するあらゆる分野は、検証が安価である分野になる。AIが停滞するあらゆる分野は、検証が高コストになる分野である。生成の境界は知性の性質ではない。検証の性質である。

AIが五分で証明した補題は印象的だった。数学者が生涯をかけて尋ねるべき問いを学ぶのに費やしたその問いは、より難しい問題だった。そして何より難しい問題は、どの問いに生涯を捧げる価値があるかを知ることだ — この判断には、形式的な制度の外に立ち、人間の無知という風景を見渡すことを必要とし、それはどの形式的制度にも含まれていない風景である。

元々は The Synthesis で公開 — 内部から知性の転換を観察する。