フィルタリングされた合成コーパスと2段階のLLM適応による文書レベル機械翻訳の強化

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMはしばしば従来のエンコーダ—デコーダ型MTシステムよりも性能が劣る一方で、より広い文脈の一貫性を捉える能力があるため、文書レベル翻訳には適していると主張する。
LLMベースの文書レベルMTに対する主な障害として、高品質な文書レベルの並列コーパスの入手可能性の限界と、幻覚（ハルシネーション）や脱落などの生成エラーがあることを指摘する。
著者らは、まずLLMを用いて要約データセットを変換し、文書レベルの並列データを作成したうえで、複数の指標（sacreBLEU、COMET、LaBSEコサイン類似度）により合成ペアをフィルタリングする、2段階の手法を提案する。
最終的な手法は2段階の微調整を用い、まず豊富な文レベルMT学習資源から出発し、次にフィルタリングされた合成の文書レベルコーパスに適応させることで、文書の一貫性を向上させ、有害な生成を抑える。

要旨: 機械翻訳において、大規模言語モデル（LLM）は従来のエンコーダ—デコーダ方式と比べて概して性能が劣っており、そのため導入は限られています。しかし、LLMは文脈情報のモデリングに優れているため、文間の整合性が重要となるドキュメント単位の翻訳タスクに自然に適合します。この可能性にもかかわらず、LLMによるドキュメント単位MTには2つの主要な課題があります: (1) 大規模で高品質なドキュメント単位の並列データが乏しいこと、そして (2) 生成時にLLMが幻覚（ハルシネーション）や脱落を起こしやすいことです。これらの課題に対処するために、LLM支援によるドキュメント単位データを活用した2段階の微調整戦略を提案します。まず、LLMを用いて要約データをドキュメント単位の並列データへ変換することでデータを拡張し、その後、sacreBLEU、COMET、そしてLaBSEに基づくコサイン類似度を用いた複数の指標でフィルタリングしてデータ品質を向上させます。最後に、2段階の微調整戦略を採用します。まず豊富に存在する文単位MTリソースで微調整し、次にフィルタリングされたドキュメント単位コーパスで微調整します。

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

フィルタリングされた合成コーパスと2段階のLLM適応による文書レベル機械翻訳の強化

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」