KazByte：バイトレベルアダプタでカザフ語向けにQwenモデルを適応させる

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、主流のLLMトークナイザがカザフ語に対して「トークナイザ税（tokenizer tax）」を課すと主張しており、その結果としてトークン数が増加し、実効的なコンテキストが縮小され、カザフ語の形態（モルフォロジー）のモデリングが低下する。
その解決として、トークナイザを回避し、生のバイトを小型の学習可能アダプタ経由で、凍結したQwen2.5-7Bモデルと接続する「ByteKaz」を提案する。
バイトレベルアダプタの学習後、アダプタを凍結し、カザフ語データに対してQwenの注意（attention）層のみを微調整することで、より効率的にモデルを適応させる。
著者らの仮説は、この二段階アプローチ（インターフェース学習→注意層の適応）が、標準的なカザフ語ベンチマークにおいて元のQwen2.5-7Bと同等、あるいはそれを上回る性能を達成できるというものである。
このarXiv版では、ByteKazのアーキテクチャと学習プロトコルを主に記述しており、実験的な検証結果は進行中として報告されている。

要旨: 大規模言語モデルは、同等の英語テキストよりもはるかに多くのトークンにカザフ語テキストを分割します。これは、彼らのトークナイザが高リソース言語向けに構築されているためです。このトークナイザ課税（tokenizer tax）は計算量を増大させ、有効なコンテキストウィンドウを短縮し、カザフ語の形態論に対するモデルの把持力を弱めます。私たちは、凍結したQwen2.5-7Bの内部言語を話す方法を学ぶ小さなアダプタに、生のバイトを投入することで、トークナイザを完全に回避することを提案します。アダプタの学習が完了したらそれを凍結し、カザフ語テキストに対してQwenの注意層（attention layers）のみを微調整します。私たちの中心的仮説は、この二段階プロセス――まずインターフェースを教え、次にモデルを適応させる――が、標準的なカザフ語ベンチマークにおいて、元のQwen2.5-7Bの精度に匹敵する、あるいはそれを上回るはずだというものです。本レポートではByteKazアーキテクチャと学習プロトコルを説明します。実験的検証は継続中です。本バージョンは、デザインと仮説を記録として提示するものです。