AI Navigate

NepTam: ネパール語-タマン語並列コーパスとベースライン機械翻訳実験

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

要点

  • NepTam20K は 20,000 文のゴールド標準のネパール語-タマン語並列コーパスを提供し、 NepTam80K は 80,000 文の合成並列コーパスを提供します。いずれも機械翻訳を支援することを目的としています。
  • データセットは文ごとに整列され、ネパール語ニュースやオンライン情報源からのデータ収集、前処理、意味的フィルタリング、時制・極性のバランス調整(NepTam20K のみ)、およびネイティブのタマン語言語学者による検証を含む専門家による翻訳のパイプラインで構築されています。
  • コーパスは五つの分野、すなわち農業、健康、教育と技術、文化、一般的なコミュニケーションを網羅します。
  • mBART、M2M-100、NLLB-200、そして素の Transformer などの多言語モデルを用いたベースライン翻訳実験は、NLLB-200 の微調整が Nepali-Tamang で 40.92、Tamang-Nepali で 45.26 の sacreBLEU スコアの最高を達成することを示しています。