フィルタリングされた合成コーパスと2段階のLLM適応による文書レベル機械翻訳の強化

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMはしばしば従来のエンコーダ—デコーダ型MTシステムよりも性能が劣る一方で、より広い文脈の一貫性を捉える能力があるため、文書レベル翻訳には適していると主張する。
  • LLMベースの文書レベルMTに対する主な障害として、高品質な文書レベルの並列コーパスの入手可能性の限界と、幻覚(ハルシネーション)や脱落などの生成エラーがあることを指摘する。
  • 著者らは、まずLLMを用いて要約データセットを変換し、文書レベルの並列データを作成したうえで、複数の指標(sacreBLEU、COMET、LaBSEコサイン類似度)により合成ペアをフィルタリングする、2段階の手法を提案する。
  • 最終的な手法は2段階の微調整を用い、まず豊富な文レベルMT学習資源から出発し、次にフィルタリングされた合成の文書レベルコーパスに適応させることで、文書の一貫性を向上させ、有害な生成を抑える。

要旨: 機械翻訳において、大規模言語モデル(LLM)は従来のエンコーダ—デコーダ方式と比べて概して性能が劣っており、そのため導入は限られています。しかし、LLMは文脈情報のモデリングに優れているため、文間の整合性が重要となるドキュメント単位の翻訳タスクに自然に適合します。この可能性にもかかわらず、LLMによるドキュメント単位MTには2つの主要な課題があります: (1) 大規模で高品質なドキュメント単位の並列データが乏しいこと、そして (2) 生成時にLLMが幻覚(ハルシネーション)や脱落を起こしやすいことです。これらの課題に対処するために、LLM支援によるドキュメント単位データを活用した2段階の微調整戦略を提案します。まず、LLMを用いて要約データをドキュメント単位の並列データへ変換することでデータを拡張し、その後、sacreBLEU、COMET、そしてLaBSEに基づくコサイン類似度を用いた複数の指標でフィルタリングしてデータ品質を向上させます。最後に、2段階の微調整戦略を採用します。まず豊富に存在する文単位MTリソースで微調整し、次にフィルタリングされたドキュメント単位コーパスで微調整します。