mAceReason-Math: RLVR対応の高品質な多言語数学問題データセット
arXiv cs.CL / 2026/3/12
📰 ニュースTools & Practical UsageModels & Research
要点
- 本記事は、RLVR向けに設計された挑戦的な数学問題の高品質翻訳データセットである mAceReason-Math を発表します。
- 14言語をカバーし、各言語あたり1万サンプルを超えています。
- 翻訳はクリーンアップされ、現在の大規模言語モデルのRLVR要件により適合するよう改善されています。
- 本データセットは、多言語の RLVR 研究とベンチマーキングを促進することを目的として公開されます。
要旨: RLVR(Verifiable Rewardsを用いた強化学習)は、特に数学と論理の問題領域において、事前学習済みの大規模言語モデルの能力を大幅に向上させることに成功しています。しかし、現在の研究と利用可能なトレーニングデータセットは英語中心のままです。過去には多言語のトレーニングデータとベンチマークが作成されていますが、それらは RLVR および現在のモデルの能力を念頭に置いて作成されたものではなく、難易度はしばしば現在のモデルに適切な訓練信号を提供するには低すぎました。このギャップを埋めるために、私たちは mAceReason-Math を提供します。これは RLVR(AceReason-Math)のために特別に編成されたコーパスから抽出された、挑戦的な数学問題の高品質翻訳データセットです。さらに、翻訳はクリーンアップし改善することに特に注意を払い、14言語をカバーし、各言語あたり1万サンプルを超えています。本データセットは、研究コミュニティにおける多言語 RLVR 研究とベンチマーキングを促進するために公開します。
