Riemann-Bench:ムーンショット数学のためのベンチマーク

arXiv cs.AI / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、国際数学オリンピック(IMO)の競技力を超えることを意図した、専門家によってキュレーションされた研究レベルの数学問題25問から成る非公開ベンチマーク「Riemann-Bench」を導入する。
  • 問題はアイビーリーグの数学研究者やIMOメダリストによって作成され、通常解答には著者らが数週間を要する。また、唯一の閉形式解が得られることをプログラム的な検証器によって確認し、二重盲検の独立した専門家による検証で妥当性が担保されている。
  • 著者らは、コーディング用ツールと探索を用いることで、制約のない研究エージェントとして最前線のAIモデルをテストし、各問題につき100回の独立した実行に基づく偏りのない推定器で性能を評価する。
  • 報告された結果では、評価したすべての最前線モデルがスコア10%未満となっており、オリンピック形式の問題解法と真の研究レベルの数学的推論の間に大きな隔たりがあることが示される。
  • ベンチマークは完全に非公開に維持されており、学習データからの暗記が起こりにくくすることで、実際の数学的能力をより適切に反映することを目指している。