Abstract
この記事では、次の問いに答えることを目指します。計算資源が限られた言語において、データ複製は自然言語処理(NLP)に有用になり得るのでしょうか? この種の言語(または)では、大規模言語モデルの学習に利用できるコーパスは事実上存在しません。特に、本研究では、話者が200万人を超える膠着的かつ多合成的な言語であり、多数の方言のバリエーションを持つナワトル語におけるコーパス拡張の影響を調査します。目的は、少数のナワトル語テキストを含む新しい$コーパスを、制御された方法で複製することで拡張することです。実験では、インクリメンタル複製(incremental duplication)手法を用います。この手法の目的は、NLPタスクに適した埋め込みを学習することです。そこで、文レベルの意味的類似度タスクにおいて、静的埋め込みを学習し評価しました。結果は、拡張を行わずに単にコーパスのみを用いた場合と比べて、インクリメンタル複製を用いることで性能が中程度に改善することを示しています。さらに、我々の知る限り、この手法は先行文献ではまだ使用されていません。