MathDuels：問題作成者と解答者としてのLLM評価

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

従来のLLM向け数学ベンチマークは、モデルを固定問題の“解答者”としてのみ扱うため、モデル能力の差を見分けにくくなっていると主張しています。
「MathDuels」は、各モデルが敵対的に数学問題を“作成”し、さらに他参加者が作成した問題を“解く”という自己対戦型ベンチマークです。
問題はメタプロンプト生成、問題生成、難度増幅の3段階パイプラインで作られ、独立した検証器で不適切（不問設定）の問題が除外されます。
Raschモデルに基づく手法で、解答者の能力と問題の難度を同時に推定し、各モデルが作る問題の難度から“作成の質”を導出します。
19のフロンティアモデルでの実験により、作成能力と解答能力は部分的に独立しており、また新しいモデルの参入に応じてベンチマークの難度が共進化していくことが示され、公開リーダーボードも新モデルのリリースごとに更新されます。