日本語のドメイン特化型小型言語モデルへ適用する手法: 規模・アーキテクチャ・量子化

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、日本語のドメイン特化型小型言語モデルを QLoRA ファインチューニングを用いて構築するための体系的な方法論を提示し、トレーニング規模、ベースモデルの選択、アーキテクチャを意識した量子化に対処している。
ステージ1では、最適な学習規模は約 4,000 サンプルであることを示し、テストセットの NLL（負の対数尤度）が1.127に最小化され、5,000サンプルでは過学習が観測される。
ステージ2では、日本語継続的事前学習を施した Llama-3 系モデル（Swallow-8B、ELYZA-JP-8B）が、Qwen2.5-7B のような多言語モデルよりも上回ることを示している。
ステージ3では、アーキテクチャを意識した量子化の結果、Llama-3 アーキテクチャは Q4_K_M 量子化で性能が向上する一方、GQA アーキテクチャは劣化することを示す。本番運用における推奨は Swallow-8B Q4_K_M で、2.830/3 のスコア、質問あたり 8.9 秒、サイズ 4.9 GB で、消費者向けハードウェア上でのコンパクトな日本語専門 LM への適用性を示す。

要約: 本論文は、QLoRAファインチューニングを用いて、ドメイン特化型の日本語小規模言語モデルを構築するための体系的な方法論を提示します。私たちは3つのコア質問に対処します：最適なトレーニング規模、ベースモデルの選択、そしてアーキテクチャを意識した量子化。
Stage 1（トレーニング規模）: Scale-learning 実験（1k–5k サンプル）により、最適な n=4,000 が特定され、テストセットの NLL が最小値（1.127）に達しますが、5k サンプルで過学習が生じます。
Stage 2（ファインチューニング済みSLMの比較）: 4つの日本語LLMを比較すると、日本語の継続的前訓練を施した Llama-3 系モデル（Swallow-8B、ELYZA-JP-8B）が、多言語モデル（Qwen2.5-7B）を上回ることが示されます。
Stage 3（量子化）: Q4_K_M 量子化の下で Llama-3 アーキテクチャは性能が向上しますが、GQA アーキテクチャは著しく低下します（Qwen2.5: -0.280 ポイント）。
運用推奨: Swallow-8B Q4_K_M は 2.830/3 のスコア、1問あたり 8.9 秒、サイズは 4.9 GB を達成します。
この方法論は低リソースの技術分野にも一般化可能で、一般消費者向けハードウェア上でのコンパクトな日本語専門言語モデルに対して実用的な指針を提供します。