コクボロク語(Kokborok)の高品質機械翻訳に向けて:インド北東部の低資源チベット・ビルマ系言語
arXiv cs.CL / 2026/4/23
📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- 本研究では、インドのトリプラで主に話される低資源のチベット・ビルマ系言語コクボロク語(Kokborok)向けのニューラル機械翻訳システム「KokborokMT」を提案する。
- 著者らは、合計36,052文対からなるマルチソースの並列データを用いて NLLB-200-distilled-600M を微調整し、専門家による翻訳、聖書ドメインのデータ、Gemini Flash を使った合成バックトランスレーションを組み合わせる。
- NLLBフレームワークにコクボロク語専用の言語トークンを新たに追加し、モデル内でその言語をより適切に扱えるようにする。
- 評価では最良モデルが保持検証用テストセットでBLEU 17.30および38.56を達成し、人手評価でも妥当性(3.74/5)と流暢性(3.70/5)が示される。
- 先行研究では小規模な聖書由来コーパスで学習したためBLEUが7未満にとどまっていたが、本手法はそれを大幅に上回る改善を報告している。




