Bielik v3 7Bおよび11Bシリーズにおけるトークナイザ最適化によるポーランド語言語モデリングの前進

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Bielik v3 PLシリーズ(7B/11B)は、汎用ユニバーサルトークナイザによる言語固有の形態的特徴の取りこぼしを改善し、ポーランド語特化のLLM最適化を進めた取り組みとして報告されています。
  • Mistralベースのユニバーサルトークナイザから、ポーランド語に最適化した専用語彙へ移行することで、fertility ratioの低下、推論コストの削減、実効コンテキスト窓の改善を狙っています。
  • FOCUSベースの埋め込み初期化や多段階の事前学習カリキュラム(pretraining curriculum)を導入し、その後にSFT、DPO、さらに検証可能な報酬を伴うGRPOによるアラインメントを行っています。
  • 本稿は、ポーランド語の言語モデル性能を左右し得る“トークナイザ最適化”と“学習・アラインメント手法の段階的統合”の具体的な設計方針を示しています。

概要: Bielik v3 PLシリーズの開発は、7Bおよび11Bのパラメータ版の両方を含み、言語固有の大規模言語モデル(LLM)最適化の分野における重要なマイルストーンを示しています。汎用モデルはしばしば印象的な多言語能力を示す一方で、根本的なアーキテクチャ上の非効率に悩まされることが多くあります。それは、ユニバーサルなトークナイザを用いることです。これらのトークナイザは通常、幅広い言語をカバーするように設計されていますが、ポーランド語のような特定言語の形態的なニュアンスを捉えきれないことが多く、その結果として、フェティリティ比の上昇、推論コストの増加、そして有効なコンテキストウィンドウの制限につながります。本レポートでは、Bielik v3モデルに対して、ユニバーサルなMistralベースのトークナイゼーションから、専用のポーランド語最適化ボキャブラリへの移行について詳述します。具体的には、FOCUSベースの埋め込み初期化、多段階の事前学習カリキュラム、そして、Supervised Fine-Tuning、Direct Preference Optimization、さらにGroup Relative Policy Optimizationによる強化学習(検証可能な報酬を伴う)を含む、その後のポストトレーニングのアラインメントについて検討します。