AI Navigate

インサイト最新記事一覧 AI大全

TAPO：多言語の数学的推論のための翻訳拡張ポリシー最適化

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、LLMにおける英語での強力な数学推論と多言語での弱い性能の間にあるギャップを扱い、その主な要因を言語理解の不十分さに帰しています。
翻訳拡張ポリシー最適化（Translation-Augmented Policy Optimization; TAPO）を提案します。これは、GRPOに基づく強化学習フレームワークであり、英語をピボットとして用い、理解してから推論することを明示的に整合させる戦略を採用します。
TAPOは、理解と推論を切り離すためにステップ単位の相対的アドバンテージ機構を導入し、最適化上の競合を引き起こさずに翻訳品質の報酬シグナルを利用できるようにします。
実験の結果、TAPOは多言語の数学的推論と翻訳性能を改善し、複数のモデル種別にわたって有効であり、未見の言語やドメイン外のタスクにも汎化します。

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。