QED-Nano:小さなモデルに難しい定理を証明させる

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オリンピアード級の証明を生成するために後学習(post-training)された4Bのオープン・メスマティカル論理モデルであるQED-Nanoを紹介し、専用の定理証明パイプラインに伴うコストとブラックボックス性に対処する。
  • 学習アプローチは3段階で構成される。すなわち、証明作成のスタイルを学ばせるためのDeepSeek-Math-V2からの教師あり微調整、ルーブリックに基づく報酬による強化学習、さらに長い証明を「要約して洗練する」ことを反復する reasoning cache を拡張した強化学習である。
  • 報告によれば、QED-Nanoはより大規模なオープンの証明モデル(例:Nomos-1、GPT-OSS-120B)を上回り、推論コストを大幅に抑えつつ、Gemini 3 Pro のような専用システムに近い性能を達成している。
  • 再現性とさらなる研究を可能にするため、著者らは、QED-Nano/QED-Nano-SFTモデル、FineProofsデータセット、そして関連する学習・評価コードを含む、学習パイプライン全体を公開している。