MATH-PT:欧州およびブラジルポルトガル語のための数学推論ベンチマーク

arXiv cs.CL / 2026/4/30

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文は、ポルトガル語(欧州・ブラジル)の数学推論ベンチマーク「Math-PT」を新たに提案し、オリンピック・大会・試験などの母語の良質な出典から収集した問題1,729問で構成しています。
  • 既存の数学推論評価は英語(あるいは英語からの翻訳)に偏りがちで、公平性や多言語での有用性を損ねていると指摘しています。
  • 著者らは最新のLLMをMath-PTで評価し、複数選択式の問題ではオープンウェイトのモデルよりもフロンティアの推論モデルが高い性能を示すことを明らかにしました。
  • さらに、図を含む問題や自由形式の問題では性能が低下し、マルチモーダル対応や自由記述の推論に課題が残っていることが示されています。
  • 将来の研究を促進するために、ベンチマークのデータセットとモデル出力を公開しています。