数学的推論評価を見直す:記号的な硬直性を超えた堅牢なLLM-as-a-Judgeフレームワーク

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 数学的推論ベンチマークでは、モデルの最終回答を正解(グラウンドトゥルース)と照合して評価することが多いが、記号的(ルールベースの)検証は表現や解答形式が多様だと汎化しにくく破綻しやすい。
  • 本研究では、LLMを「審判(LLM-as-a-judge)」として用いる評価フレームワークを提案し、数式表現や解答スタイルの違いにまたがってより柔軟に正しさを判定できるようにする。
  • Lighteval と SimpleRL の2つの代表的なベンチマーク枠組みにおける記号的評価の失敗例を示し、提案手法が一般的な方法よりも信頼性を高めることを比較で明らかにしている。
  • より信頼できる評価により、数学的問題解決や推論を目指すモデルに対する性能モニタリングを正確に行い、進展につなげることが目的として述べられている。