トルコ諸語におけるクロスリンガル転移とパラメータ効率の高い適応:低リソース言語モデルのための理論的枠組み

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語ごとに大規模言語モデルの性能が不均一である点に対処し、トルコ諸語は高リソース言語が中心に扱われるため、学習データと評価ベンチマークの双方で過小に代表されがちだと指摘する。
  • トルコ諸語(アゼルバイジャン語、カザフ語、ウズベク語、トルクメン語、ガガウズ語)において、多言語LLMのためのクロスリンガル転移とパラメータ効率の高い適応を研究する理論的枠組みを提案し、それらが持つ類型論的・形態論的な類似性を活用する。
  • この枠組みは、多言語表現学習の考え方と、LoRAのようなパラメータ効率の高い微調整手法を組み合わせ、適応の性能を、モデル容量、適応データ量、適応モジュールの表現力に結びつける概念的なスケーリングモデルを導入する。
  • 関連するトルコ諸語間で知識がどれほど容易に転移できるかを形式化するために、本論文は Turkic Transfer Coefficient(TTC)を導入し、形態学的類似性、語彙の重なり、統語構造、文字体系の互換性を理論的に考慮する。
  • 結論として、類型論的類似性は効率的な多言語転移を改善し得る一方で、極端に低リソースな設定ではパラメータ効率の高い手法の構造的な限界も示す。

概要: 大規模言語モデル(LLM)は自然言語処理を大きく変革しましたが、その能力は言語ごとに一様ではありません。ほとんどの多言語モデルは主として高リソース言語で学習されているため、大規模な話者人口を持ちながらも多くの言語が、学習データと評価ベンチマークの両方で十分に表現されないままになっています。この不均衡は、特にトルコ諸語(Turkic)言語系統で顕著に見られます。本論文では、トルコ諸語の言語族の中で、多言語LLMに対する言語間転移とパラメータ効率の高い適応を研究するための理論的枠組みを提案します。対象は、アゼルバイジャン語、カザフ語、ウズベク語、トルクメン語、ガガウズ語です。これらの言語は類型論的・形態学的に大きな類似性を共有しつつ、利用可能なデジタル資源の点では大きく異なります。このため、多言語適応戦略を分析する自然な場となっています。私たちは、多言語表現学習および、低ランク適応(Low-Rank Adaptation: LoRA)に代表されるパラメータ効率の高い微調整手法から得られる知見を統合し、適応性能が、モデルの容量、適応データのサイズ、および適応モジュールの表現力(expressivity)にどのように依存するかを記述する概念的スケーリングモデルを構築します。関連する言語間の転移可能性を形式化するために、トルコ諸語間における形態学的類似性、語彙の重なり、統語構造、表記体系の互換性を取り入れた理論的尺度であるトルコ諸語転移係数(Turkic Transfer Coefficient: TTC)を導入します。この枠組みは、類型論的類似性が効率的な多言語転移を可能にしうる一方で、極端に低リソースな状況ではパラメータ効率の高い適応に構造的な限界があることも明らかにします。