AFRILANGTUTOR:大規模言語モデルで低リソース言語の言語指導と文化教育を推進する取り組み
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この論文は、十分な学習資源がない低リソースのアフリカ諸語向けに、言語学習・チュータリングAIをどう構築するかを扱っています。
- AFRILANGDICT(194.7Kの辞書エントリ)を種データとして、検証可能な「学習者—チュータ」形式の質問応答を自動生成し、さらに学習用の多ターンデータセットAFRILANGEDU(78.9K)を作成します。
- AFRILANGEDUを用いて、Llama-3-8B-ITとGemma-3-12B-ITの2つの多言語LLMを10のアフリカ言語で微調整し、AFRILANGTUTORを訓練します。
- 微調整モデルはベースモデルを一貫して上回り、SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)を組み合わせると、LLM-as-a-judge評価で1.8%〜15.5%の改善が得られたと報告されています。
- すべてのデータセットとリソースはHugging Faceで公開され、低リソース言語の教育研究・開発を後押しします。



