IRIS:インターリーブ強化学習と段階的カリキュラムによる言語横断の数学的推論
arXiv cs.CL / 2026/4/28
📰 ニュースSignals & Early TrendsModels & Research
要点
- この論文では、逐次的な推論手順への依存を減らすためにリバース・カリキュラム強化学習を用い、さらに難易度を段階的に上げる教師ありファインチューニングと組み合わせることで、言語横断の数学的推論を改善する2軸フレームワーク「IRIS」を提案しています。
- IRISは、正答性、手順レベルの整合性、推論の連続性、数値に関するインセンティブを組み合わせた複合報酬を設計し、GRPO(Group Relative Policy Optimization)で最適化します。
- 著者らはCL-Mathという、英語・ヒンディー語・マラーティー語の3言語で手順レベル注釈を備えた2万9千件規模の数学問題データセットを公開します。
- 主要ベンチマークとキュレーションされた多言語テストセットで、低リソース環境やバイリンガル設定で特に大きい改善を含む一貫した性能向上が確認されています。
