タジク語(キリル文字)—ペルシア語(アラビア文字)間の機械転写モデルの体系的ベンチマーク:ルールベースからTransformerまでの比較研究

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究はタジク語(キリル文字)↔ペルシア語(アラビア文字)の機械転写について、複数のモデル系統を対象にした初の包括的なベンチマークを提供し、エンドツーエンドで評価しています。
  • 主要な貢献として、異種の情報源から集約・検証した大規模なタジク語—ペルシア語の並列コーパスを構築しており、最初は328,253文対から始め、40,000文対を層化無作為抽出で作成しました。
  • ルールベース、LSTM+注意、文字レベルTransformer、G2P Transformer(スクラッチ学習)、多言語事前学習モデル、バイトレベルByT5の6系統を比較した結果、バイトレベルByT5が大きく最良であり(chrF++ 87.4:タジク→ファルシ、80.1:逆方向)、他を圧倒しました。
  • スクラッチで学習したG2P Transformerも強力で、mBARTを上回る一方(72.3 vs. 62.2 chrF++)、サブワードトークナイズに依存する多言語モデル(mT5)は大きく失敗しました(chrF++ 18.5未満)。転写品質がトークン化の粒度に強く影響されることを示唆します。
  • 本結果は、タジク—ファルシの高精度転写には、サブワードに基づく従来の多言語Seq2Seqよりも、バイト/文字レベルのアーキテクチャが適していることを示しています。

概要: 本論文は、タジク語(キリル文字)とペルシア語(アラビア文字)の間の音訳(transliteration)に関する、現代の機械学習アーキテクチャの包括的な比較分析としては初めての試みを提示する。主要な貢献は、クラウドソーシングによるプロジェクト、語彙(レキシコグラフィック)ペア、「シャー・ナーメ」の並行テキスト、大使館・外交記事、「マスナヴィー・イ・マアナヴィー」のテキスト、公式の用語リスト、および音訳対応関係を含む複数の異種ソースから集約した、独自の並行コーパスの作成と検証である。初期データセットは328,253文対から構成されており、層化ランダムサンプリングを用いて代表的な40,000文対のサブセットを形成した。
実験では、6クラスのモデルを比較した:ルールベースのベースライン、注意機構付きLSTM、文字レベルTransformer、G2P Transformer(スクラッチから学習)、事前学習済みの多言語モデル(mBART、LoRA付きmT5)、およびバイトレベルのByT5。結果は、ByT5が圧倒的に優れていることを示している(タジク語→ファルス語でchrF++ 87.4、逆方向で80.1)。G2P Transformerは、データが限られているにもかかわらずmBARTを大きく上回った(72.3 vs. 62.2 chrF++)。サブワードトークン化を用いるモデル(mT5)は完全に失敗した(chrF++が18.5未満)。
これらの発見は、タジク語—ファルス語の組に対する正確な音訳においては、バイトまたは文字レベルで動作するアーキテクチャが、サブワードトークン化に依存する従来の多言語Seq2Seqモデルよりも、明白により効果的であることを示している。