ReflectMT:効率的かつ高品質な機械翻訳のための内在化されたリフレクション

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ReflectMTは、従来の「考えてから翻訳する(think-first-then-translate)」ではなく、「まず翻訳してから考える(translate-first-think-later)」というより効率的なパラダイムを機械翻訳に適用する新しい手法です。
  • この方法は強化学習による2段階プロセスを用い、まずリフレクションとリファインの品質を高め、次にそのリフレクションから得た知識をモデルに内在化させます。
  • 学習後、ReflectMTは推論時に明示的な多段推論ステップなしで直接翻訳を行い、高品質な出力を初回から生成します。
  • WMT24を含むデータセットでの実験では、DeepSeek-R1のような多段推論型LRMよりも、自動評価とGPTベース評価の両方で初回翻訳が上回り、さらにトークン使用量を大幅に削減(94.33%)できることが示されています。
  • GPTベースの翻訳品質評価で2.16ポイントの改善が報告されており、品質向上と推論効率の大幅な改善を両立する点が強調されています。

Abstract

近年、Large Reasoning Models(LRM)を機械翻訳(MT)に適用することへの関心が高まっています。既存のアプローチの大半は、「think-first-then-translate(まず考えてから翻訳する)」というパラダイムを採用しています。推論の軌跡を明示的にたどることは翻訳品質を大きく向上させる一方で、推論コストとレイテンシが過大になります。これらの制約に対処するために、我々は機械翻訳のための二段階のリフレクション内在化アルゴリズムであるReflectMTを提案します。ReflectMTは、「translate-first-think-later(まず翻訳してから後で考える)」というパラダイムを用います。我々のアプローチは強化学習によって、モデルの「translate-reflect-refine(翻訳→熟考→洗練)」能力を発達させます。第一段階では、高品質なリフレクションと洗練を行うモデルの能力を育成し、それによって意味理解とタスク固有の知識を強化します。第二段階では、リフレクション中に獲得した知識をモデルに内在化させるよう学習します。その結果、推論時にReflectMTは直接翻訳モードで動作し、明示的な推論ステップなしに、最初の試行で高品質な翻訳を生成します。WMT24などのデータセットに対する実験結果は、推論時のモデルの一次パス翻訳が、DeepSeek-R1のような多段階推論LRMよりも、自動評価指標およびGPTベース評価の両方で優れていることを示しています。具体的には、GPTベースの翻訳品質評価で2.16ポイントの改善を達成しつつ、トークン消費量を94.33%削減しています。