コクボロク語(Kokborok)の高品質機械翻訳に向けて:インド北東部の低資源チベット・ビルマ系言語

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • 本研究では、インドのトリプラで主に話される低資源のチベット・ビルマ系言語コクボロク語(Kokborok)向けのニューラル機械翻訳システム「KokborokMT」を提案する。
  • 著者らは、合計36,052文対からなるマルチソースの並列データを用いて NLLB-200-distilled-600M を微調整し、専門家による翻訳、聖書ドメインのデータ、Gemini Flash を使った合成バックトランスレーションを組み合わせる。
  • NLLBフレームワークにコクボロク語専用の言語トークンを新たに追加し、モデル内でその言語をより適切に扱えるようにする。
  • 評価では最良モデルが保持検証用テストセットでBLEU 17.30および38.56を達成し、人手評価でも妥当性(3.74/5)と流暢性(3.70/5)が示される。
  • 先行研究では小規模な聖書由来コーパスで学習したためBLEUが7未満にとどまっていたが、本手法はそれを大幅に上回る改善を報告している。