検証可能な報酬による強化学習で、パラメトリック知識を活用して異文化のエンティティ翻訳を促進する

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMによる異文化のエンティティ翻訳が難しい点に取り組み、モデルが文脈に即した翻訳ではなく逐語的・音韻的な表記になりがちだと指摘しています。
提案手法EA-RLVR（Entity-Anchored Reinforcement Learning with Verifiable Rewards）では、外部の知識ベースに頼らずに、検証可能なエンティティレベルの報酬でパラメトリック知識の活用を促す学習枠組みを提示しています。
EA-RLVRは、エンティティ単位の報酬アンカーと軽量な構造ゲートにより強化学習の最適化を安定化し、参照訳の模倣ではなく頑健な推論プロセスの学習へ導きます。
XC-Translateでの実験では、7kサンプルのみでQwen3-14Bのエンティティ翻訳精度が、完全に未出のエンティティを含む50kテストセットで23.66%から31.87%へ向上したことが示されています。
さらに本手法は一般翻訳にも転移し、WMT24++でXCOMETが+1.35となり、最適化を延長すると+1.59に達し、得られた改善はサンプリング効率と最適化の安定性に結び付けて分析されています。