TAPO:多言語の数学的推論のための翻訳拡張ポリシー最適化

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMにおける英語での強力な数学推論と多言語での弱い性能の間にあるギャップを扱い、その主な要因を言語理解の不十分さに帰しています。
  • 翻訳拡張ポリシー最適化(Translation-Augmented Policy Optimization; TAPO)を提案します。これは、GRPOに基づく強化学習フレームワークであり、英語をピボットとして用い、理解してから推論することを明示的に整合させる戦略を採用します。
  • TAPOは、理解と推論を切り離すためにステップ単位の相対的アドバンテージ機構を導入し、最適化上の競合を引き起こさずに翻訳品質の報酬シグナルを利用できるようにします。
  • 実験の結果、TAPOは多言語の数学的推論と翻訳性能を改善し、複数のモデル種別にわたって有効であり、未見の言語やドメイン外のタスクにも汎化します。