ドメイン特化型の機械翻訳および品質推定システムに向けて

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本学位論文は、機械翻訳（MT）および品質推定（QE）が一般ドメインから専門ドメインへ移行すると劣化することを論じ、そのギャップに対処するデータ駆動型の適応戦略に焦点を当てる。
MTに対しては、類似性に基づくドメイン内データ選択を提案し、小さな対象を絞ったサブセットが、はるかに大きな汎用データセットよりも優れた性能を発揮し得ることを示しつつ、計算コストも削減できることを示す。
QEでは、ドメイン適応と軽量なデータ拡張を組み合わせる段階的な学習パイプラインを導入し、ゼロショットやクロスリンガルのケースを含む、複数ドメイン・複数言語・資源制約下において領域をまたいだ結果の改善を達成する。
微調整の際に、サブワードトークン化と語彙整合（ボキャブラリ・アライメント）が重要であることを見出す。トークン化と語彙の設定が一致していないと学習が不安定になり、翻訳品質が損なわれる。
さらに、大規模言語モデルに対して、パラメータ更新を行わずに翻訳品質を改善するための例を選択する、QEに導かれたインコンテキスト学習アプローチを提示し、参照なしの設定でも動作可能であることを示す。

要旨: 機械翻訳（MT）と品質推定（QE）は一般的な領域ではよく機能しますが、領域の不一致があると劣化します。本論文は、データに焦点を当てた一連の貢献を通じて、専門領域に適応する形でMTおよびQEシステムをどのように適応させるかを研究します。第2章では、MTのための類似性に基づくデータ選択手法を示します。小さく、的を絞った領域内サブセットは、はるかに大きな汎用データセットよりも優れ、計算コストを低くしながら強力な翻訳品質に到達します。第3章では、領域適応と軽量なデータ拡張を組み合わせた、段階的なQE学習パイプラインを提案します。この手法は、ゼロショットおよびクロスリンガルのケースを含め、領域、言語、資源設定にわたって性能を向上させます。第4章では、微調整におけるサブワードのトークン化と語彙の役割を調べます。対応づいたトークン化—語彙の設定は、安定した学習とより良い翻訳品質につながりますが、不一致の設定は性能を低下させます。第5章では、大規模言語モデルのための、QEに導かれたインコンテキスト学習手法を提案します。QEモデルは、パラメータ更新を行わずに翻訳品質を改善するような例を選択し、標準的な検索手法よりも優れた性能を発揮します。このアプローチは、参照なしの設定もサポートし、単一の参照セットへの依存を低減します。これらの結果は、領域適応はデータ選択、表現、および効率的な適応戦略に依存することを示しています。本論文は、領域固有の設定において信頼性よく動作するMTおよびQEシステムを構築するための手法を提供します。