MathDuels:問題作成者と解答者としてのLLM評価
arXiv cs.CL / 2026/4/24
📰 ニュースSignals & Early TrendsModels & Research
要点
- 従来のLLM向け数学ベンチマークは、モデルを固定問題の“解答者”としてのみ扱うため、モデル能力の差を見分けにくくなっていると主張しています。
- 「MathDuels」は、各モデルが敵対的に数学問題を“作成”し、さらに他参加者が作成した問題を“解く”という自己対戦型ベンチマークです。
- 問題はメタプロンプト生成、問題生成、難度増幅の3段階パイプラインで作られ、独立した検証器で不適切(不問設定)の問題が除外されます。
- Raschモデルに基づく手法で、解答者の能力と問題の難度を同時に推定し、各モデルが作る問題の難度から“作成の質”を導出します。
- 19のフロンティアモデルでの実験により、作成能力と解答能力は部分的に独立しており、また新しいモデルの参入に応じてベンチマークの難度が共進化していくことが示され、公開リーダーボードも新モデルのリリースごとに更新されます。



