polyGRPO:言語を潜在変数にする多言語推論のRL最適化
Zenn / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- polyGRPOは、多言語推論を強化学習(RL)で最適化する枠組みで、言語を潜在変数として扱うことで推論を効率化する狙いがある。
- 通常の多言語学習で問題になりがちな言語間のばらつき・学習不安定性に対し、潜在変数化によって学習を安定させる設計が示されている。
- GRPO系の最適化思想を多言語推論へ拡張し、複数言語にまたがる推論性能の底上げを目指している。
- 本記事は研究アイデアの紹介と方法論(アルゴリズム設計/発想)に重点があり、実装や運用の直接手順というより設計意図の理解が中心である。
TL;DR
LLMの推論において「英語が最良の言語」という前提を覆す実験結果を提示。中国語や日本語での応答が英語を上回るケースが多数確認された
言語を「出力媒体」ではなく「内部推論経路を構造的に調節する潜在変数」として扱うpolyGRPOを提案
たった18.1Kの多言語数学問題(CoTアノテーション不要)で英語推論ベンチマークで+6.72%、多言語平均で**+6.89%**を達成
数学データのみで訓練したにもかかわらず、英語常識推論(X-CSQA)で**唯一Base LLMを上回る(+4.9%)**という強力な跨タスク汎化性を確認
なぜこの論文が重要か
LLMの推論能力向上...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



