polyGRPO:言語を潜在変数にする多言語推論のRL最適化

Zenn / 5/1/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • polyGRPOは、多言語推論を強化学習(RL)で最適化する枠組みで、言語を潜在変数として扱うことで推論を効率化する狙いがある。
  • 通常の多言語学習で問題になりがちな言語間のばらつき・学習不安定性に対し、潜在変数化によって学習を安定させる設計が示されている。
  • GRPO系の最適化思想を多言語推論へ拡張し、複数言語にまたがる推論性能の底上げを目指している。
  • 本記事は研究アイデアの紹介と方法論(アルゴリズム設計/発想)に重点があり、実装や運用の直接手順というより設計意図の理解が中心である。
TL;DR LLMの推論において「英語が最良の言語」という前提を覆す実験結果を提示。中国語や日本語での応答が英語を上回るケースが多数確認された 言語を「出力媒体」ではなく「内部推論経路を構造的に調節する潜在変数」として扱うpolyGRPOを提案 たった18.1Kの多言語数学問題(CoTアノテーション不要)で英語推論ベンチマークで+6.72%、多言語平均で**+6.89%**を達成 数学データのみで訓練したにもかかわらず、英語常識推論(X-CSQA)で**唯一Base LLMを上回る(+4.9%)**という強力な跨タスク汎化性を確認 なぜこの論文が重要か LLMの推論能力向上...

Continue reading this article on the original site.

Read original →