タジク語（キリル文字）—ペルシア語（アラビア文字）間の機械転写モデルの体系的ベンチマーク：ルールベースからTransformerまでの比較研究

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本研究はタジク語（キリル文字）↔ペルシア語（アラビア文字）の機械転写について、複数のモデル系統を対象にした初の包括的なベンチマークを提供し、エンドツーエンドで評価しています。
主要な貢献として、異種の情報源から集約・検証した大規模なタジク語—ペルシア語の並列コーパスを構築しており、最初は328,253文対から始め、40,000文対を層化無作為抽出で作成しました。
ルールベース、LSTM+注意、文字レベルTransformer、G2P Transformer（スクラッチ学習）、多言語事前学習モデル、バイトレベルByT5の6系統を比較した結果、バイトレベルByT5が大きく最良であり（chrF++ 87.4：タジク→ファルシ、80.1：逆方向）、他を圧倒しました。
スクラッチで学習したG2P Transformerも強力で、mBARTを上回る一方（72.3 vs. 62.2 chrF++）、サブワードトークナイズに依存する多言語モデル（mT5）は大きく失敗しました（chrF++ 18.5未満）。転写品質がトークン化の粒度に強く影響されることを示唆します。
本結果は、タジク—ファルシの高精度転写には、サブワードに基づく従来の多言語Seq2Seqよりも、バイト／文字レベルのアーキテクチャが適していることを示しています。

概要: 本論文は、タジク語（キリル文字）とペルシア語（アラビア文字）の間の音訳（transliteration）に関する、現代の機械学習アーキテクチャの包括的な比較分析としては初めての試みを提示する。主要な貢献は、クラウドソーシングによるプロジェクト、語彙（レキシコグラフィック）ペア、「シャー・ナーメ」の並行テキスト、大使館・外交記事、「マスナヴィー・イ・マアナヴィー」のテキスト、公式の用語リスト、および音訳対応関係を含む複数の異種ソースから集約した、独自の並行コーパスの作成と検証である。初期データセットは328,253文対から構成されており、層化ランダムサンプリングを用いて代表的な40,000文対のサブセットを形成した。
実験では、6クラスのモデルを比較した：ルールベースのベースライン、注意機構付きLSTM、文字レベルTransformer、G2P Transformer（スクラッチから学習）、事前学習済みの多言語モデル（mBART、LoRA付きmT5）、およびバイトレベルのByT5。結果は、ByT5が圧倒的に優れていることを示している（タジク語→ファルス語でchrF++ 87.4、逆方向で80.1）。G2P Transformerは、データが限られているにもかかわらずmBARTを大きく上回った（72.3 vs. 62.2 chrF++）。サブワードトークン化を用いるモデル（mT5）は完全に失敗した（chrF++が18.5未満）。
これらの発見は、タジク語—ファルス語の組に対する正確な音訳においては、バイトまたは文字レベルで動作するアーキテクチャが、サブワードトークン化に依存する従来の多言語Seq2Seqモデルよりも、明白により効果的であることを示している。