DATASHI: 表記正規化および低資源言語処理のための並列英語–タマズィフト語コーパス

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • データセットは、表記正規化および関連するNLPワークフロー(例:トークン化、翻訳、正規化)を支援することを目的として設計されており、さらに後段の音読音声データ収集とマルチモーダルなアラインメントも可能にします。

要旨: DATASHIは、アマジグ語(Amazigh languages)のための計算資源における重要なギャップを埋める新しい並列英語−タシュリヒト(Tashlhiyt)コーパスである。これには5,000文対が含まれ、うち1,500文のサブセットには、専門家によって標準化された版と、非標準のユーザー生成版が含まれており、表記の多様性と正規化を体系的に研究できるようになっている。この二重の設計は、トークン化、翻訳、正規化などのテキストベースのNLPタスクを支えるだけでなく、音声の読みデータ収集とマルチモーダルな整合の基盤としても機能する。最先端の大規模言語モデル(GPT-5、Claude-Sonnet-4.5、Gemini-2.5-Pro、Mistral、Qwen3-Max)を用いた包括的な評価により、ゼロショットから少数ショットのプロンプトへと明確な改善が示され、Gemini-2.5-Proは語レベルおよび文字レベルの誤り率が最も低く、また堅牢なクロスリンガルな汎化を示している。音韻クラス(重子音、強調音、口蓋垂音、咽頭音)にまたがる編集操作の詳細な分析――削除、置換、挿入――は、目立ったタシュリヒトの特徴に対するモデル固有の感度をさらに際立たせ、低資源のアマジグ表記の正規化に対する新しい診断的洞察を提供する。