概要: 大規模言語モデル(LLM)は、しばしば未知の言語スキルを獲得したり、新しい領域に適応したりするために、継続的事前学習(Continual Pre-Trained: CPT)が必要になります。CPTの莫大な学習コストのために、追加の言語または領域コーパスの混合比のような主要ハイパーパラメータを慎重に選ぶことが求められることが多いです。しかし、最適な混合比と実際のモデル性能の間、ならびに実験的なスケーリング則と全モデルサイズでの実運用との間をつなぐ体系的な研究は存在しません。本論文では、中国語能力を強化するために、Llama-3 8Bおよび70Bに対してCPTを行います。追加言語混合比(ALMR)と学習率(LR)の最適な相関を、8Bサイズにおいて調べます。これは、最適な実験設定を直接的に示します。ハイパーパラメータを徹底的に選定し、その後の微調整を行うことで、モデルの能力は中国語関連のベンチマークだけでなく、数学、コーディング、感情知能などの特定の領域においても改善されます。さらに、最終的な70B版のLLMを実運用のチャットシステムに展開し、満足のいく性能を得ています。
ALMR(追加言語混合比率)の最適化によるLlama-3 70Bへのポストトレーニング実践
arXiv cs.CL / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Continual Pre-Training(CPT)におけるハイパーパラメータ、とりわけ追加言語・ドメインデータの混合比であるALMRが、下流タスクの性能にどう影響するかを検討している。
- Llama-3 8Bを用いてALMRと学習率(LR)の関係を調べ、最適な実験設定を特定するための指標づけを行っている。
- ハイパーパラメータの入念な選定と、その後の微調整により、中国語能力だけでなく、数学・コーディング・感情的知能といった特定ドメインでも能力向上が報告されている。
- 最適化されたLlama-3 70Bモデルを実運用のチャットシステムにデプロイし、現場での満足できる性能が得られたとしている。



