翻訳品質推定のための半合成平行データ: 資源の乏しい言語ペアのデータセット構築のケーススタディ

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、使用パターンから英語文を生成し、それを複数の MT エンジンで翻訳し、BLEU ベースのフィルタリングを適用することにより、英語→ヘブライ語の品質推定（QE）データセットを半合成的に構築する。
データセットを、最高品質と評価された専門家による英語-ヘブライ語のセグメントで補強し、信頼性を向上させる。
著者らは、性別と数の一致に焦点を当てた制御された翻訳誤りを導入し、BERTおよびXLM-Rなどの QE モデルをストレステストする。
データセットのサイズ、分布、誤り分布が QE モデルの性能に与える影響を分析する。
本研究は、資源の乏しく形態素が豊かな言語に対する QE を前進させるとともに、課題・方法論・結果・今後の改善の方向性を概説する。

Quality estimation (QE) は、参照翻訳を持たない生成出力を評価し、人間のポストエディットまたは完全な再翻訳が必要かどうかを判断するため、機械翻訳（MT）ワークフローにおいて重要な役割を果たします。とはいえ、資源不足の言語ペアに対して高精度で適応性が高く信頼性のある QE システムを開発することは、主に並列コーパスの不足や、形態統語的に複雑な言語のような言語依存要因の多様性により、まだ解決されていません。本研究は、英語→ヘブライ語 QE の半合成平行データを提示します。使用例から典型的な言語パターンを示す英語文を作成し、それを複数の MT エンジンでヘブライ語に翻訳し、BLEU ベースのフィルタリングを適用することにより作成されました。各翻訳セグメントは言語学者によって手動で評価・スコア付けされ、私たち自身のリソースから専門家によって翻訳された英語-ヘブライ語のセグメントも取り入れられ、最高品質のスコアが付与されました。性別と数の一致に関する言語的課題に対処するため、制御された翻訳誤りを導入し、BERTやXLM-Rを含むニューラル QE モデルをこのデータセットで訓練して、文レベルの MT 品質を評価しました。私たちの知見は、データセットのサイズ、分布の均衡、誤り分布がモデルの性能に与える影響を強調します。本研究は、QE の性能向上を目指す今後の課題、方法論、結果を説明し、資源の乏しい言語ペア、形態素が豊かな言語を含む QE モデルの進展に寄与します。