比較可能サイズのLLMにおける言語適応のベンチマーク：ローマ字化ネパール語でLlama-3.1-8B、Mistral-7B-v0.1、Qwen3-8Bを検証する研究

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この研究は、3つの同規模のオープンウェイトLLM（Llama-3.1-8B、Mistral-7B-v0.1、Qwen3-8B）を用いて、ローマ字化ネパール語の言語適応をゼロショットと微調整（SFT）の両条件でベンチマークした。
PPL、BERTScore、chrF++、ROUGE-1/2/L、BLEUなど複数の評価指標で、3モデルはいずれもゼロショットではローマ字化ネパール語を生成できず、モデル構造に応じて異なる失敗パターンが観測された。
QLoRA（rsLoRA、r=32）で、各モデルの約1%のみを学習し、合計約27GPU時間未満で微調整すると、全モデルが大きく改善し、BERTScoreは約0.75、chrF++は23超に収束した。
指標別の結果から総合推奨はQwen3-8Bであり、ゼロショットで意味的に妥当な出力を唯一生成し、SFT後の構造整合性指標でも首位となった。
「適応ヘッドルーム」仮説も確認され、ゼロショットでは最弱でもLlama-3.1-8BはPPL（Δ=-49.77）とBERTScore（Δ=+0.3287）の微調整による絶対的な改善が最大で、低リソース開発を反復する用途に有利と示された。

Abstract

ローマ字化ネパリ語（ラテン文字で書かれたネパリ語）は、ネパールにおける非公式なデジタル通信の主要媒体であるにもかかわらず、大規模言語モデル（LLM）の領域では決定的に資源が不足している。本研究では、同程度の規模をもつ3つのオープンウェイトモデル――Llama-3.1-8B、Mistral-7B-v0.1、Qwen3-8B――に対して、言語適応に関する体系的なベンチマークを提示する。キュレーションされた二言語データセット（10,000件の転写された指示追従サンプル）を用いて、ゼロショットおよびファインチューニング設定の両方でこれらのアーキテクチャを評価する。性能は、7つの計測次元にまたがる5つの指標、すなわち Perplexity（PPL）、BERTScore、chrF++、ROUGE-1、ROUGE-2、ROUGE-L、BLEU によって定量化し、流暢性、音韻的整合性、意味的完全性を捉える。モデルは Quantized Low-Rank Adaptation（QLoRA）と、Rank-Stabilized LoRA（rsLoRA）をランク r=32 で用いてファインチューニングした。トレーニングはデュアルの NVIDIA Tesla T4 GPU 上で行い、各モデルのパラメータの約1%のみを対象として、合計約27GPU時間未満で実施した。ゼロショットでは、3つのモデルはいずれもローマ字化ネパリ語を生成できず、各モデルはアーキテクチャ固有の異なる失敗モードを示す。ファインチューニング後には、3つすべてがこれらの失敗を解消し、BERTScore は約0.75、chrF++ は23超へと収束する。10の基準に基づく次元別の総合評価では、Qwen3-8B が全体として推奨されるアーキテクチャであることが判明する。理由は、ゼロショットで意味的に関連のある出力を生成できた唯一のモデルであり、さらに SFT 後の構造整合の全指標で先頭に立っているためである。適応余地（adaptation headroom）仮説が確認される。すなわち、最も弱いゼロショット基準値にもかかわらず、Llama-3.1-8B は PPL（Delta = -49.77）と BERTScore（Delta = +0.3287）において最大の絶対的なファインチューニング向上を達成しており、反復型の低資源開発パイプラインにとって好ましい選択肢となる。本研究は、同規模のオープンウェイトLLMにおけるローマ字化ネパリ語適応のための最初の厳密なベースラインを確立する。