AFRILANGTUTOR:大規模言語モデルで低リソース言語の言語指導と文化教育を推進する取り組み

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、十分な学習資源がない低リソースのアフリカ諸語向けに、言語学習・チュータリングAIをどう構築するかを扱っています。
  • AFRILANGDICT(194.7Kの辞書エントリ)を種データとして、検証可能な「学習者—チュータ」形式の質問応答を自動生成し、さらに学習用の多ターンデータセットAFRILANGEDU(78.9K)を作成します。
  • AFRILANGEDUを用いて、Llama-3-8B-ITとGemma-3-12B-ITの2つの多言語LLMを10のアフリカ言語で微調整し、AFRILANGTUTORを訓練します。
  • 微調整モデルはベースモデルを一貫して上回り、SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を組み合わせると、LLM-as-a-judge評価で1.8%〜15.5%の改善が得られたと報告されています。
  • すべてのデータセットとリソースはHugging Faceで公開され、低リソース言語の教育研究・開発を後押しします。

Abstract

十分な学習資源を欠く言語に対して、言語学習システムをどのように開発すればよいのでしょうか。この課題は、アフリカ大陸全域で、地域の言語を理解し応答できるAIシステムを構築しようとする開発者たちにより、ますます直面されています。このギャップに対処するために、私たちはAFRILANGDICTを導入します。これは、言語学習教材を生成するためのシード資源として設計された、アフリカ言語-英語辞書エントリの集合(194.7K件)です。これにより、AI支援型の言語チュータを訓練するのに適した、大規模で多様かつ検証可能な学生-チュータの質問-回答インタラクションを自動的に構築できます。AFRILANGDICTを用いて、Supervised Fine-Tuning(SFT)およびDirect Preference Optimization(DPO)のための、78.9K件のマルチターン学習例からなるデータセットであるAFRILANGEDUを構築します。AFRILANGEDUを用いて、AFRILANGTUTORとして総称される言語指導モデルを学習します。私たちは、多言語LLMであるLlama-3-8B-ITとGemma-3-12B-ITを、10のアフリカ言語にまたがるAFRILANGEDU上で微調整し、その性能を評価します。結果は、AFRILANGEDUで学習したモデルが一貫してベースとなるモデルを上回ること、そしてSFTとDPOを組み合わせることで大幅な改善が得られることを示しています。改善幅は、LLM-as-a-judgeによる評価で4つの基準に対し1.8%から15.5%の範囲でした。低資源言語に関するさらなる研究を促進するために -- すべての資源は https://huggingface.co/afrilang-edu で利用可能です。