few resourced languages（少資源言語）の自然言語処理におけるコーパスの重複排除か重複（ダブリング）か？事例研究：メキシコのナワトル語（Nahuatl）

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模な学習コーパスがほとんど利用できない少資源「π言語」において、制御されたデータ重複（duplication）がNLPを支援できるかどうかを検討する。
分析対象として、膠着語的で多総合的な（polysynthetic）構造と多数の方言バリエーションを持つナワトル語（Nawatl, Nahuatl）の小規模なπ-yalliコーパスを拡張することを目的としたケーススタディを提示する。
著者らは、文レベルの埋め込み（sentence-level embeddings）学習のための拡張学習セットを作成するために、段階的な重複（incremental duplication）手法を適用する。
意味類似タスクにおいて、静的埋め込み（static embeddings）を用いた実験では、元のコーパスのみを用いる場合と比べて中程度の性能向上が示される。
著者らは、この特定の重複アプローチは先行研究ではこれまで用いられていないと主張し、低資源NLPにおける新しい研究方向性の可能性として位置付ける。

Abstract

この記事では、次の問いに答えることを目指します。計算資源が限られた言語において、データ複製は自然言語処理（NLP）に有用になり得るのでしょうか？この種の言語（または

























）では、大規模言語モデルの学習に利用できるコーパスは事実上存在しません。特に、本研究では、話者が200万人を超える膠着的かつ多合成的な





























言語であり、多数の方言のバリエーションを持つナワトル語におけるコーパス拡張の影響を調査します。目的は、少数のナワトル語テキストを含む新しい

$コーパスを、制御された方法で複製することで拡張することです。実験では、インクリメンタル複製（incremental duplication）手法を用います。この手法の目的は、NLPタスクに適した埋め込みを学習することです。そこで、文レベルの意味的類似度タスクにおいて、静的埋め込みを学習し評価しました。結果は、拡張を行わずに単にコーパスのみを用いた場合と比べて、インクリメンタル複製を用いることで性能が中程度に改善することを示しています。さらに、我々の知る限り、この手法は先行文献ではまだ使用されていません。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

few resourced languages（少資源言語）の自然言語処理におけるコーパスの重複排除か重複（ダブリング）か？事例研究：メキシコのナワトル語（Nahuatl）

要点

Abstract

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer