変化は常態:NLPにおける社会言語学を取り入れる

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 全体として、この研究は、既存のモデルが生じている変異に対して頑健ではないことを強調するとともに、社会言語学的な裏付けがより良いNLPの実験設計やモデル学習を導くことを示しています。

要旨: 自然言語処理(NLP)において、変異は通常ノイズとして見なされ、処理の前に「正規化されて見えなくされる」ことが多いです。しかし、変異は言語の不可欠な一部です。これに対して、社会的文脈の中で言語変異を研究することは社会言語学の中心です。本研究では、言語の社会言語学的次元とNLPの技術的次元を組み合わせるための枠組みを提示します。私たちは、社会言語学を受け入れることで、変異を研究の場に能動的に組み込むことができ、その結果としてNLP側にも情報を与えられると主張します。これを示すために、表記の変異が大量に見られる進化中の言語であるルクセンブルク語を対象とした事例研究を提示し、NLPの性能がどのように影響を受けるかを示します。その結果、(表記の)標準により近いデータと比べて、表記の変異が大量に含まれるデータでテストされ、かつ微調整されたモデルの性能には大きな食い違いがあることが分かりました。さらに、微調整のプロセスに変異を含めることで性能を改善できる可能性のある解決策も提示します。この事例研究は、変異を研究の場に含めることの重要性を強調しています。というのも、現在のモデルは発生しうる変異に対して頑健ではないためです。私たちの枠組みは、変異を思考プロセスに組み込むことを可能にしつつ、社会言語学の理論的枠組みにも裏付けられています。