AI Navigate

低リソース言語のための大規模言語モデルへの指示付け: バスク語を対象とした体系的研究

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、低資源言語であるバスク語に対して、ターゲット言語のコーパスのみ、オープンウェイトの多言語バックボーン、そしてバックボーンからサンプリングされた合成指示を用いた指示チューニングを検討する。
  • さまざまなコンポーネントの組み合わせを網羅した実験のセットを提示し、ベンチマークと1,680名の参加者による人間の嗜好評価とともに評価している。
  • 主な知見は、ターゲット言語のコーパスが不可欠であること、合成指示が堅牢なモデルを生むこと、指示付きチューニングを施したバックボーンが、基礎の非指示モデルを上回ることを示している。
  • バックボーンを Llama 3.1 Instruct 70Bへスケールさせると、バスク語専用の指示がなくても、より大規模な最先端モデルに近づく。
  • 本研究は、将来の低リソース言語研究における完全な再現性を可能にするため、コード、モデル、指示データセット、および人間の嗜好データを公開する。

要約: ユーザーの意図を持つ言語モデルを指示するには、大規模な指示データセットが必要で、それは限られた言語セットでのみ入手可能です。
本論文では、低リソース環境における従来の指示適応パイプラインの代替案を検討します。
低リソース言語の現実的なシナリオを前提とし、利用可能なのは以下のみです:目的言語のコーパス、既存のオープンウェイトの多言語ベースおよび指示付きバックボーンLLM、そして指示済みバックボーンからサンプリングされた合成生成指示。
私たちは、バスク語に対する包括的な実験セットを提示し、これらの構成要素のさまざまな組み合わせを、ベンチマークと1,680名の参加者による人間の嗜好に基づいて系統的に検証します。
結論として、対象言語のコーパスは不可欠であり、合成指示は堅牢なモデルを生み出すこと、そして最も重要なのは、バックボーンとして指示調整済みのモデルを使用する方が、基礎の非指示モデルを使用するよりも優れているということです。スケールアップして、バックボーンとしてLlama 3.1 Instruct 70Bを用いた場合、私たちのモデルは、バスク語のためのより大規模な最前線モデルには近づきますが、バスク語の指示は一切使用していません。
低リソース言語適応に関する将来の研究で完全な再現性を確保するために、コード、モデル、指示データセット、および人間の嗜好を公開します。
https://github.com/hitz-zentroa/latxa-instruct