要旨:トークン化は、現在の大規模言語モデル(LLMs)における自然言語処理の中核要素であり、生のテキストを処理可能な単位へと変換することをモデルに可能にします。学習済みトークナイザーは広く採用されていますが、それらには顕著な制約があり、巨大で固定された語彙サイズや新しいドメインや言語への適応性の欠如が含まれます。私たちは、階層型自己回帰トランスフォーマー(HAT)アーキテクチャに基づく、最大700億パラメータを持つモデル群を提示します。HATでは、エンコーダー・トランスフォーマーがバイト列を単語埋め込みに集約し、それをバックボーン、すなわち古典的な自己回帰トランスフォーマーへ入力します。バックボーンの出力はデコーダーによってクロスアテンションされ、再度バイト列へ変換されます。私たちは、Llama 3.1 8Bおよび70BモデルをHATアーキテクチャへ変換することによって、利用可能な事前訓練済みモデルを再利用できることを示します:Llama-3.1-8B-TFree-HATおよびLlama-3.1-70B-TFree-HATは、エンコーダとデコーダがゼロから訓練されたバイトレベルのモデルですが、元のトークンの代わりに語埋め込みを扱うよう、埋め込み行列とヘッドを削除したLlamaバックボーンを事前訓練済みのまま適用します。私たちはまた、ほぼ4兆語を用いて完全にゼロから訓練された7B HATモデル、Llama-TFree-HAT-Pretrainedを提供します。HATアーキテクチャは、必要なシーケンス位置数を削減することによりテキスト圧縮を改善し、語内の変動、例えば綴りの差異に対する頑健性を高めます。事前訓練を経て、さらに教師ありファインチューニングおよび英語とドイツ語における直接的な好み最適化を通じて、両言語において高い能力を示し、ほとんどのベンチマークで元のLlama 3.1を上回っています。私たちはモデルを(200個の事前訓練チェックポイントを含む)Hugging Faceで公開します。
静的語彙から解放されたLLMファミリー
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は HAT アーキテクチャを紹介します。階層型自己回帰トランスフォーマーで、エンコーダを用いてバイトを語彙埋め込みへ変換し、自己回帰モデリングのバックボーンを使用し、その後再びバイトへデコードします。
- 著者らは、事前学習済みの Llama 3.1 バックボーンを語彙埋め込みを扱えるよう適応させることで再利用する方法を示し、Llama-3.1-8B-TFree-HAT および Llama-3.1-70B-TFree-HAT のようなバイト単位のモデルを作成します。
- また、ほぼ4兆語で一から訓練された7Bモデル、Llama-TFree-HAT-Pretrained を提示します。
- HAT アプローチは必要なシーケンス位置を削減し、テキストの圧縮を改善し、語内の変動への頑健性を高めます。英語とドイツ語のベンチマークは、元の Llama 3.1 より改善を示しています。
- 著者らは Hugging Face で約200個の事前学習チェックポイントを含むモデルを公開します。