広告

言語におけるダイアクリティックの程度とそのタスクへの影響

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、文字–ダイアクリティックの組み合わせについて、出現頻度、曖昧性、構造的多様性に関する指標を用い、書記体系全体(コーパス単位)で「ダイアクリティックの複雑さ」を定量化する、情報理論的な枠組みを提示する。
  • 実験では、15言語・24コーパスに対してこれらの指標を算出し、単一ダイアクリティックおよび複数ダイアクリティックの書記体系の両方を対象に、ダイアクリティック復元の精度との関係を評価する。
  • 結果として、言語をまたぐ強い負の相関が示される。すなわち、ダイアクリティックの複雑さが高いほど、BERTベースおよびRNNベースの両方のモデルにおいて復元精度が一般に低下する。
  • 単一ダイアクリティックの書記体系では、頻度に関する指標や構造に関する指標は概ね性能傾向と一致する。一方で複数ダイアクリティックの書記体系では、頻度ベースの指標よりも、構造的複雑さとモデル精度の関係のほうが強くなる。
  • 著者らは、正書法(オーソグラフィ)の複雑さは単に記述的なものではなく、ダイアクリティック復元モデルが言語をまたいで学習し汎化する度合いに対して機能的に関連していると結論づけている。

広告