数学的証明を検証するのに、フロンティアモデルが必要なのか?
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自然言語による数学的証明を検証できる能力について、フロンティアおよびオープンソースのLLMを評価し、主要な指標として検証器の精度と自己一貫性を用いる。
- 結果として、小規模なオープンソースモデルは精度においてフロンティアモデルにかなり近い(約10%以内)一方で、反復した判断に対する一貫性は大きく劣り(最大25%悪化)ことが示される。
- 検証器の精度は、すべてのモデルにおいてプロンプト選択に非常に敏感であり、「検証」の信頼性はモデルの能力だけでなく、質問の引き出し方(elicitation strategy)にも依存することが示唆される。
- 著者らは、小規模モデルでもフロンティア級の能力で検証できるが、一般的な判断用プロンプトではそうした能力を確実に引き出せないことを見出している。
- LLMによるプロンプト探索により、特化したプロンプトのアンサンブルを生成することで、小規模モデルの精度を最大9.1%、自己一貫性を最大15.9%向上させる。その結果、Qwen3.5-35Bのようなモデルが、(例:Gemini 3.1 Proのような)フロンティアモデルと証明検証で同等の性能を達成できることが示される。



