ALMR（追加言語混合比率）の最適化によるLlama-3 70Bへのポストトレーニング実践

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Continual Pre-Training（CPT）におけるハイパーパラメータ、とりわけ追加言語・ドメインデータの混合比であるALMRが、下流タスクの性能にどう影響するかを検討している。
Llama-3 8Bを用いてALMRと学習率（LR）の関係を調べ、最適な実験設定を特定するための指標づけを行っている。
ハイパーパラメータの入念な選定と、その後の微調整により、中国語能力だけでなく、数学・コーディング・感情的知能といった特定ドメインでも能力向上が報告されている。
最適化されたLlama-3 70Bモデルを実運用のチャットシステムにデプロイし、現場での満足できる性能が得られたとしている。

概要: 大規模言語モデル（LLM）は、しばしば未知の言語スキルを獲得したり、新しい領域に適応したりするために、継続的事前学習（Continual Pre-Trained: CPT）が必要になります。CPTの莫大な学習コストのために、追加の言語または領域コーパスの混合比のような主要ハイパーパラメータを慎重に選ぶことが求められることが多いです。しかし、最適な混合比と実際のモデル性能の間、ならびに実験的なスケーリング則と全モデルサイズでの実運用との間をつなぐ体系的な研究は存在しません。本論文では、中国語能力を強化するために、Llama-3 8Bおよび70Bに対してCPTを行います。追加言語混合比（ALMR）と学習率（LR）の最適な相関を、8Bサイズにおいて調べます。これは、最適な実験設定を直接的に示します。ハイパーパラメータを徹底的に選定し、その後の微調整を行うことで、モデルの能力は中国語関連のベンチマークだけでなく、数学、コーディング、感情知能などの特定の領域においても改善されます。さらに、最終的な70B版のLLMを実運用のチャットシステムに展開し、満足のいく性能を得ています。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

Dev.to

ALMR（追加言語混合比率）の最適化によるLlama-3 70Bへのポストトレーニング実践

要点

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer