Bielik-Minitron-7B: ポーランド語のための構造化剪定と知識蒸留による大規模言語モデルの圧縮

arXiv cs.CL / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

Bielik-Minitron-7Bは、Bielik-11B-v3.0の圧縮版で、ヨーロッパ諸言語（ポーランド語を含む）に最適化された7.35Bパラメータモデルで、NVIDIA Minitron方式に触発された2段階の圧縮手法を用いています。
圧縮は33.4%のパラメータ削減を実現し、11.04Bから7.35Bへ、構造化ハイブリッド剪定とNVIDIA NeMoによるロジットベース蒸留を用いて行われました。
蒸留後、監督付き微調整（SFT）、Direct Preference Optimization（DPO-P）、およびGRPOを用いた強化学習からなるアライメントパイプラインが適用され、モデル品質を回復しました。
最終モデルは基準モデルの性能のおおよそ90%を回復しつつ、推論を最大50%高速化すると報告されており、表現が乏しい言語のデプロイをより安価に可能にします。
本研究は、NVIDIAのツールによって支えられつつ、ヨーロッパ言語向けに品質を維持しながら推論コストを削減する、効率的な言語モデルのデプロイメントへの実用的な道筋を示します。

本報告は、ヨーロッパ言語に特化して最適化された Bielik-11B-v3.0 モデルの圧縮版 Bielik-Minitron-7B の作成について詳述します。7.35Bパラメータのこのモデルは、NVIDIA Minitron アプローチに触発された2段階の圧縮手法を活用して、パラメータ数を11.04Bから7.35Bへ33.4%削減しました。構造化ハイブリッド剪定にはNVIDIA Model Optimizerを、品質回復のための蒸留にはNVIDIA NeMo Frameworkを利用しました。蒸留後、監督付き微調整（SFT）、Direct Preference Optimization（DPO-P）、GRPOを用いた強化学習からなる厳格なアライメントパイプラインを経て、最終モデルは基準モデルの性能のおおよそ90%を回復しつつ、推論を最大50%高速化しました。このアプローチは、表現が乏しい言語の言語モデルを効率的に作成する道を示すもので、元のモデル品質を維持しつつ推論デプロイコストを削減します。