Samasamayik:ヒンディー語—サンスクリット語機械翻訳のための並列データセット

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、機械翻訳研究向けにキュレーションされた92,196件のヒンディー語—サンスクリット語の文対から成る、新しい大規模並列データセット「Samasamayik」を紹介する。
  • 既存の多くのサンスクリット資源が古典詩や歴史的文献を重視するのに対し、本データセットは、話し言葉のチュートリアル、児童向け雑誌、ラジオでの会話、指導用コンテンツなど、現代的で多様な資料を集約している。
  • 著者らは、3つの翻訳モデル(ByT5、NLLB、IndicTrans-v2)をデータセットで微調整し、ドメイン内のテストデータで明確な改善が得られることを示すことで、その有用性を評価する。
  • Samasamayikで学習したモデルは、他の標準テストセットでも同等の性能を達成すると報告されており、本データセットはヒンディー語—サンスクリット語MTにおける強力な新しいベースラインとして位置づけられている。
  • 既存コーパスとの比較から、意味的および語彙的な重複が低いことが示されており、本データセットが新規で、低リソースのインド諸語翻訳に対して冗長ではないことが示唆される。

概要: 私たちは、92,196組の並列文から成る、独創的で、細部まで厳密にキュレーションされた大規模なヒンディー・サンスクリット語コーパス「Samas\=amayik」を公開します。サンスクリット語で利用可能なデータの多くが古典期のテキストや詩に焦点を当てているのに対し、本コーパスは、話し言葉のチュートリアル、児童向け雑誌、ラジオでの会話、指導用資料など、現代的な内容を含む多様な情報源からデータを集約しています。私たちは、本新しいデータセットの有用性を示すために、3つの補完的なモデル――ByT5、NLLB、IndicTrans-v2――を微調整することで、このデータセットを評価します。実験の結果、Samasamayikコーパスで学習したモデルは、領域内のテストデータに対して大幅な性能向上を達成しつつ、他の広く利用されているテストセットに対しては同等の性能を実現することが分かりました。これにより、現代のヒンディー・サンスクリット翻訳における強力な新しい性能ベースラインが確立されます。さらに、既存のコーパスとの比較分析により、意味的・語彙的な重なりが最小限であることが明らかになり、低リソースのインド系言語の機械翻訳(MT)に対する堅牢な新資源として、本データセットが新規であり、冗長性がないことが確認されます。