数学的証明を検証するのに、フロンティアモデルが必要なのか?

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自然言語による数学的証明を検証できる能力について、フロンティアおよびオープンソースのLLMを評価し、主要な指標として検証器の精度と自己一貫性を用いる。
  • 結果として、小規模なオープンソースモデルは精度においてフロンティアモデルにかなり近い(約10%以内)一方で、反復した判断に対する一貫性は大きく劣り(最大25%悪化)ことが示される。
  • 検証器の精度は、すべてのモデルにおいてプロンプト選択に非常に敏感であり、「検証」の信頼性はモデルの能力だけでなく、質問の引き出し方(elicitation strategy)にも依存することが示唆される。
  • 著者らは、小規模モデルでもフロンティア級の能力で検証できるが、一般的な判断用プロンプトではそうした能力を確実に引き出せないことを見出している。
  • LLMによるプロンプト探索により、特化したプロンプトのアンサンブルを生成することで、小規模モデルの精度を最大9.1%、自己一貫性を最大15.9%向上させる。その結果、Qwen3.5-35Bのようなモデルが、(例:Gemini 3.1 Proのような)フロンティアモデルと証明検証で同等の性能を達成できることが示される。

Abstract

学習、ポストトレーニング、および推論時の手法における進歩により、最先端の推論モデルは数学コンペで金メダルを獲得し、困難な未解決問題を解決できるようになりました。これらのモデルの応答に対する信頼を得るには、自然言語による証明が誤りなくチェックされる必要があります。こうした証明を評価する需要の高まりに対応するため、LLMジャッジがますます採用されるようになっています。検証は生成よりも簡単だと考えられていますが、信頼できる検証に実際に必要なモデルの能力とは何でしょうか? 我々は、人間が採点した競技レベルの問題の自然言語による証明データセットに対して、オープンソース4つと最先端LLM2つを体系的に評価します。考慮する主要な指標は2つ、すなわち検証器の精度と自己整合性(同一の証明に対する反復判断の一致率)です。観察の結果、小型のオープンソースモデルは精度に関しては最先端モデルに最大でも約10%劣るだけですが、自己整合性に関しては最大で約25%も不安定です。さらに、検証器の精度は、すべてのモデルにおいてプロンプト選択に敏感であることが分かります。次に、小型モデルは実際には最先端モデルと同等のレベルで証明を検証するための数学的能力を備えているものの、一般的なジャッジ用プロンプトではこれらの能力を確実に引き出すのが難しいことを示します。LLMに導かれたプロンプト探索により、より小型モデルの特定の失敗モードを克服する専用プロンプトのアンサンブルを合成し、精度を最大9.1%、自己整合性を15.9%まで向上させます。これらの改善はモデルとデータセットの両方で実現され、Qwen3.5-35Bのようなモデルが、Gemini 3.1 Proのような最先端モデルと同等の性能で証明検証を行えることが可能になります。