仮説駆動型の誤り分析からハードな数学問題を自動生成する

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、仮説駆動型の誤り分析を用いて、LLMが間違える原因となる特定の数学的概念やスキルを特定するAI主導のパイプラインを提案し、汎用的なカテゴリベースの集合ではなく、狙いを定めたベンチマーク作成を可能にする。
  • 生成品質は「仮説の正確性」と結び付いており、最も正確な仮説から導出されたベンチマークほど有意に難度の高い問題が生成されると主張されている。さらに、Llama-3.3-70B-Instructの精度は、元のMATHベンチマークで77%であるのに対し、約45%まで低下する。
  • この手法は、大規模化が可能であり、先行する自動ベンチマーク生成手法よりも適応性が高いとされる。急速に進展するLLMに歩調を合わせつつ、固定的なベンチマークへの過剰適合を減らすことを目的としている。
  • 著者らは、このパイプラインは数学にとどまらず、他分野でのLLM能力の検証にも拡張できると論じている。領域固有のターゲティングにより、モデルの弱点をより広く調査することを支援する。

Abstract

数学の能力を評価するための多数の数式ベンチマークが存在します。しかし、その多くは大規模な手作業を要し、スケールしにくいです。その結果、LLMの開発に追随できず、過学習を緩和するための新しい事例を容易に提供できません。研究者の一部は自動ベンチマーク生成手法を提案していますが、LLMがどの特定の数学的概念やスキルに対して誤りを起こしやすいのかを特定することに焦点を当てたものはほとんどなく、また、生成できるベンチマークは多くの場合カテゴリ固有に限られます。これらの制約に対処するために、私たちは、AIが生成した仮説を用いてLLMが苦手とする特定の数学的概念とスキルを特定し、次にそれらの弱点を狙った新しいベンチマーク問題を生成する、新しい数学ベンチマーク生成パイプラインを提案します。実験の結果、仮説の正確性は生成された問題の難しさと正の相関を示すことが分かりました。最も正確な仮説から生成された問題は、元のMATHベンチマークで77%であるのに対し、Llama-3.3-70B-Instructの精度を最大で45%まで低下させます。さらに、私たちのパイプラインは非常に適応性が高く、数学の枠を超えて適用できるため、多様なLLM能力を探究することが可能です。これにより、LLMが異なる領域においてどのように性能を発揮するかを調査するうえで、有用なツールとなります。