MathDuels:問題作成者と解答者としてのLLM評価

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 従来のLLM向け数学ベンチマークは、モデルを固定問題の“解答者”としてのみ扱うため、モデル能力の差を見分けにくくなっていると主張しています。
  • 「MathDuels」は、各モデルが敵対的に数学問題を“作成”し、さらに他参加者が作成した問題を“解く”という自己対戦型ベンチマークです。
  • 問題はメタプロンプト生成、問題生成、難度増幅の3段階パイプラインで作られ、独立した検証器で不適切(不問設定)の問題が除外されます。
  • Raschモデルに基づく手法で、解答者の能力と問題の難度を同時に推定し、各モデルが作る問題の難度から“作成の質”を導出します。
  • 19のフロンティアモデルでの実験により、作成能力と解答能力は部分的に独立しており、また新しいモデルの参入に応じてベンチマークの難度が共進化していくことが示され、公開リーダーボードも新モデルのリリースごとに更新されます。