「ロゼッタストーン」としての構文:文脈内コプト語翻訳のためのUniversal Dependencies

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、低リソース環境では高リソース言語と異なる手法が必要であることを踏まえ、コプト語から英語への低リソース機械翻訳に向けた文脈内学習手法を提案しています。
  • モデル入力にUniversal Dependencies(UD)パースを用いて構文情報を補強し、(1) 生のパーサ出力、(2) パースを平易な英語で言語化したもの、(3) 難しい構文を含む部分木に対するターゲット指示、の組み込みを検証しています。
  • 構文情報単体では辞書ベースのグロスほど有効ではない一方で、取得した辞書項目と構文情報を組み合わせることで大幅な改善が得られることを示しています。
  • 提案手法は、複数のモデル規模において改善が観測され、コプト語の翻訳で新たな最先端(SOTA)結果を達成しました。
  • 全体として、本研究はUDに基づく構文補強を、大規模な並列コーパスや直接的な教師データが乏しい場合の翻訳品質向上に役立つ実用的な手段として位置づけています。

要旨: 低資源機械翻訳では、高資源言語に用いられる方法とは異なる手法が必要となる。本論文では、入力文に対する Universal Dependencies の構文解析からの構文拡張を伴う形で、コプト語から英語への低資源機械翻訳を支援する、新規のインコンテキスト学習アプローチを提案する。語彙項目の推論を支えるためにバイリンガル辞書を用いる既存の研究を土台として、我々は、構文解析の表現を複数追加して入力に組み込み、具体的には、生のパーサ出力の包含、構文解析の平易な英語による言い換え(verbalizations)、および部分木の中で同定された難しい構文に関する的を絞った指示と、それらがどのように翻訳できるかを扱う。結果は、構文情報単独では辞書ベースの訳注(glosses)ほど有用ではない一方で、取得した辞書項目と構文情報を組み合わせることで、モデルサイズ全体にわたり顕著な改善が得られることを示す。これにより、コプト語に対して新しい最先端の翻訳結果を達成した。

「ロゼッタストーン」としての構文:文脈内コプト語翻訳のためのUniversal Dependencies | AI Navigate