逆翻訳を用いた直接選好最適化によるニューラル機械翻訳のための枠組み

arXiv cs.CL / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、教師ありの並列データで学習されたニューラル機械翻訳(NMT)に見られる持続的な翻訳誤りを修正することを目的とした、強化学習(RL)ベースのポストトレーニング手法を提案しています。
  • 提案フレームワークは、一般的なテキストコーパスと、専門家翻訳者からのフィードバック(人手またはAIのいずれでも可)だけを必要とし、そのフィードバックを反復的に用いてモデルを改善します。
  • 強化学習の実装として、選好に基づくポストトレーニングを行うための Direct Preference Optimization(DPO)を採用しています。
  • 英語からドイツ語の実験では、gemma3-1bに本手法を適用することで翻訳品質が向上し、COMETスコアが0.703から0.747に上昇しました。
  • 著者らは、このDPOアプローチが、追加の並列教師データに頼らず選好信号で事前学習済みNMTモデルを強化するための効率的かつ安定した手段であると主張しています。

概要: 現代のニューラル機械翻訳(NMT)システムは、ほぼ例外なく、教師ありの並列データで訓練することによって構築されています。大きな進歩が達成されているにもかかわらず、これらのシステムには翻訳誤りが継続的に現れるという問題があります。本論文では、強化学習(RL)に基づく事後学習(post-training)パラダイムが、そのような誤りを効果的に修正できることを提案します。私たちは、一般的なテキストコーパスと、反復的なフィードバックを提供できる「専門の翻訳者」を(それが人間であってもAIシステムであっても)用意するだけでよい、独自の枠組みを導入します。実験では、代表的な高リソース言語ペアとして、英語からドイツ語への翻訳に焦点を当てます。重要な点として、私たちはこのRLベースの事後学習をDirect Preference Optimization(DPO)によって実装します。DPOに基づく枠組みをgemma3-1bモデルに適用したところ、英語からドイツ語タスクにおいて、COMETスコアが0.703から0.747へと大幅に向上しました。その結果は、DPOが、嗜好(preference)に基づく事後学習を通じて事前学習済みNMTモデルを強化するための、効率的で安定した手段を提供することを示しています。