コクボロク語（Kokborok）の高品質機械翻訳に向けて：インド北東部の低資源チベット・ビルマ系言語

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

本研究では、インドのトリプラで主に話される低資源のチベット・ビルマ系言語コクボロク語（Kokborok）向けのニューラル機械翻訳システム「KokborokMT」を提案する。
著者らは、合計36,052文対からなるマルチソースの並列データを用いて NLLB-200-distilled-600M を微調整し、専門家による翻訳、聖書ドメインのデータ、Gemini Flash を使った合成バックトランスレーションを組み合わせる。
NLLBフレームワークにコクボロク語専用の言語トークンを新たに追加し、モデル内でその言語をより適切に扱えるようにする。
評価では最良モデルが保持検証用テストセットでBLEU 17.30および38.56を達成し、人手評価でも妥当性（3.74/5）と流暢性（3.70/5）が示される。
先行研究では小規模な聖書由来コーパスで学習したためBLEUが7未満にとどまっていたが、本手法はそれを大幅に上回る改善を報告している。