比較可能サイズのLLMにおける言語適応のベンチマーク:ローマ字化ネパール語でLlama-3.1-8B、Mistral-7B-v0.1、Qwen3-8Bを検証する研究
arXiv cs.CL / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この研究は、3つの同規模のオープンウェイトLLM(Llama-3.1-8B、Mistral-7B-v0.1、Qwen3-8B)を用いて、ローマ字化ネパール語の言語適応をゼロショットと微調整(SFT)の両条件でベンチマークした。
- PPL、BERTScore、chrF++、ROUGE-1/2/L、BLEUなど複数の評価指標で、3モデルはいずれもゼロショットではローマ字化ネパール語を生成できず、モデル構造に応じて異なる失敗パターンが観測された。
- QLoRA(rsLoRA、r=32)で、各モデルの約1%のみを学習し、合計約27GPU時間未満で微調整すると、全モデルが大きく改善し、BERTScoreは約0.75、chrF++は23超に収束した。
- 指標別の結果から総合推奨はQwen3-8Bであり、ゼロショットで意味的に妥当な出力を唯一生成し、SFT後の構造整合性指標でも首位となった。
- 「適応ヘッドルーム」仮説も確認され、ゼロショットでは最弱でもLlama-3.1-8BはPPL(Δ=-49.77)とBERTScore(Δ=+0.3287)の微調整による絶対的な改善が最大で、低リソース開発を反復する用途に有利と示された。



