TinyR1-32B-Preview:ブランチ・マージ蒸留で精度を向上

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、圧縮しても精度を落としにくいLLM向け手法として、2段階(選択的な「ブランチ」蒸留と、学生モデルを結合する「マージ」)のBranch-Merge蒸留を提案しています。
  • 本手法は、従来の蒸留や転移学習などが小型化時に高性能を維持するのに苦戦しがちな点を補うことを目的としています。
  • 検証では、DeepSeek-R1を教師モデル、DeepSeek-R1-Distill-Qwen-32Bを学生モデルとして用い、マージ後のモデルTinyR1-32B-Previewを作成しています。
  • TinyR1-32B-Previewは、対応するベースラインに対して数学(+5.5)、コーディング(+4.4)、理科(+2.9)など複数ベンチマークで改善し、AIME 2024ではDeepSeek-R1に近い性能を維持しています。
  • 著者らは、このアプローチがスケール可能であり、小型かつ高性能なLLMを作る際の計算コストと時間を削減できると主張しています。

概要: 大規模言語モデル(LLM)のサイズを削減しつつ、その性能を維持することは、大きな注目を集めています。しかし、モデル蒸留や転移学習といった既存の手法は、多くの場合高い精度を達成できません。この制約に対処するために、本稿ではBranch-Merge蒸留アプローチを提案します。本アプローチは、2つのフェーズによってモデル圧縮を強化します。(1)Branchフェーズでは、大規模な教師モデルから得られる知識を、ドメイン固有の教師あり微調整(SFT)を通じて、 extit{選択的に}専門化した学生モデルへ蒸留します。 (2)Mergeフェーズでは、これらの学生モデルを統合し、ドメインをまたいだ知識移転を可能にして汎化性能を向上させます。提案する蒸留アプローチの検証では、教師としてDeepSeek-R1を用い、学生としてDeepSeek-R1-Distill-Qwen-32Bを用います。その結果得られる統合モデルであるTinyR1-32B-Previewは、複数のベンチマークにおいて、対応するDeepSeek-R1-Distill-Qwen-32Bを上回ります。具体的には、数学(+5.5ポイント)、コーディング(+4.4ポイント)、科学(+2.9ポイント)です。また、AIME 2024においてはDeepSeek-R1にほぼ等しい性能を達成しています。Branch-Merge蒸留アプローチは、計算コストと時間を削減しつつ、小型で高性能なLLMを作り出すためのスケーラブルな解決策を提供します。