few resourced languages(少資源言語)の自然言語処理におけるコーパスの重複排除か重複(ダブリング)か?事例研究:メキシコのナワトル語(Nahuatl)

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模な学習コーパスがほとんど利用できない少資源「π言語」において、制御されたデータ重複(duplication)がNLPを支援できるかどうかを検討する。
  • 分析対象として、膠着語的で多総合的な(polysynthetic)構造と多数の方言バリエーションを持つナワトル語(Nawatl, Nahuatl)の小規模なπ-yalliコーパスを拡張することを目的としたケーススタディを提示する。
  • 著者らは、文レベルの埋め込み(sentence-level embeddings)学習のための拡張学習セットを作成するために、段階的な重複(incremental duplication)手法を適用する。
  • 意味類似タスクにおいて、静的埋め込み(static embeddings)を用いた実験では、元のコーパスのみを用いる場合と比べて中程度の性能向上が示される。
  • 著者らは、この特定の重複アプローチは先行研究ではこれまで用いられていないと主張し、低資源NLPにおける新しい研究方向性の可能性として位置付ける。

Abstract

この記事では、次の問いに答えることを目指します。計算資源が限られた言語において、データ複製は自然言語処理(NLP)に有用になり得るのでしょうか? この種の言語(または)では、大規模言語モデルの学習に利用できるコーパスは事実上存在しません。特に、本研究では、話者が200万人を超える膠着的かつ多合成的な言語であり、多数の方言のバリエーションを持つナワトル語におけるコーパス拡張の影響を調査します。目的は、少数のナワトル語テキストを含む新しい$コーパスを、制御された方法で複製することで拡張することです。実験では、インクリメンタル複製(incremental duplication)手法を用います。この手法の目的は、NLPタスクに適した埋め込みを学習することです。そこで、文レベルの意味的類似度タスクにおいて、静的埋め込みを学習し評価しました。結果は、拡張を行わずに単にコーパスのみを用いた場合と比べて、インクリメンタル複製を用いることで性能が中程度に改善することを示しています。さらに、我々の知る限り、この手法は先行文献ではまだ使用されていません。