Merge and Conquer：ターゲット言語の重みを追加して多言語モデルに指示を学習させる

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、英語中心のモデルで通常は十分に扱われていない低資源言語において、LLMの指示追従性と言語性能を向上させる方法を扱う。
新たに言語固有の指示データセットを用意したり、繰り返し微調整を行ったりする必要を回避しつつ、指示チューニング済みLLMと言語固有のベースモデルを組み合わせることで、モデルのマージによって言語知識を転移することを提案する。
Basque（バスク語）、Catalan（カタルーニャ語）、Galician（ガリシア語）、Spanish（スペイン語）を対象に、2つのモデル系統で実験を行った結果、マージによって新たに対象とした言語で効果的な指示追従が得られることを示す。
さらに、複数の言語固有モデルをマージすることで多言語能力を獲得できることも著者らが示しており、言語ごとの強みを組み合わせるためのスケーラブルな手法が示唆される。
総じて本研究は、低資源言語への適応において、競争力のある結果を維持しつつ、モデルマージが継続的事前学習に対する計算効率の高い代替手段になり得ると結論づけている。

Abstract

大規模言語モデル（LLM）は依然として英語に強く中心づいており、低資源言語では性能が限定的です。継続的事前学習のような既存の適応アプローチは、大きな計算資源を必要とします。指示に従うように調整されたモデルの場合、高品質な指示データもまた必要ですが、これらのどちらも低資源言語のコミュニティにとってしばしば利用できません。これらの制約のもとでは、モデルマージは軽量な代替手段となり得ますが、低資源環境におけるその可能性は体系的には検討されていません。本研究では、言語特化型のベースモデルとマージすることで、指示チューニング済みLLMへ言語知識を転送し、より強力な指示付きバリアントが利用可能になった際に、言語特化の指示が不要となり、また繰り返しの微調整プロセスも不要にできるのかを探ります。バスク語、カタルーニャ語、ガリシア語、スペイン語の4つのイベリア言語と、2つのモデル系統を対象とした実験を通じて、マージにより新しい言語において有効な指示追従挙動が実現でき、さらに複数の言語特化モデルを組み合わせることで多言語対応も支援できることを示します。本結果は、モデルマージが、低資源言語に対する伝統的な適応手法の実行可能で効率的な代替手段であり、計算コストを大幅に削減しながら競争力のある性能を達成できることを示唆しています。