ベンチマークの先へ:LLMによる数学評価のための評価基盤MathArena

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、静的な数学ベンチマークは範囲が狭くすぐに飽和し、更新も滞りがちであるため、LLMの進歩を時系列で信頼性高く比較するのが難しいと指摘しています。
  • そこで、MathArenaを「継続的に保守される」評価プラットフォームとして提案し、従来のベンチマークを最終答案型のオリンピック問題から大きく拡張したと述べています。
  • MathArenaは、証明ベースの競技、研究レベルのarXiv問題、Leanによる形式的証明生成など、より幅広いタスクをカバーしています。
  • 全モデルに対して明確で一貫した評価プロトコルを維持し、能力向上に応じて新たなベンチマークを定期的に設計することを重視しています。
  • GPT-5.5については、2026年USA数学オリンピックで98%、研究レベルの問題で74%という結果が示され、継続的な評価基盤の重要性を裏付けています。

要旨: 大規模言語モデル(LLM)は、ますます高度な数学的共同作業者になりつつありますが、静的ベンチマークだけでは進捗を評価するにはもはや十分ではありません。これらはしばしば範囲が狭く、すぐに飽和し、更新されることもほとんどありません。そのため、モデルを信頼性をもって比較し、時間とともに進捗を追跡することが難しくなっています。代わりに、評価プラットフォームが必要です。すなわち、多数のベンチマークにわたって評価を実行し、集約し、分析することを継続的に保守されるシステムであり、幅広い領域におけるモデル性能の包括的な全体像を示します。本研究では、元の MathArena ベンチマークを土台にしつつ、その範囲を最終答案のオリンピック競技問題から、LLM による数学的推論のための継続的に保守される評価プラットフォームへと大幅に拡張します。MathArena は、証明ベースの競技、研究レベルの arXiv 問題、Lean による形式的な証明生成など、はるかに幅広いタスクをカバーするようになりました。さらに、すべてのモデルに対して明確な評価プロトコルを維持し、モデルの能力が向上するにつれて MathArena が常に挑戦的であり続けるように、新しいベンチマークを定期的に設計します。注目すべき点として、最も強力なモデルである GPT-5.5 は、2026 年の USA 数学オリンピックで 98% を達成し、研究レベルの問題では 74% に到達しており、最前線のモデルが非常に難度の高い数学問題をいまや難なく解けることを示しています。これは、MathArena のような継続的に保守される評価プラットフォームが、数学的推論における LLM の急速な進歩を追跡するうえで重要であることを浮き彫りにします。

ベンチマークの先へ:LLMによる数学評価のための評価基盤MathArena | AI Navigate