計算効率に最適なトークナイズ

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、圧縮率（1トークンあたりの平均バイト数）によって制御されるトークンの「情報粒度」が、言語モデルのスケーリング傾向にどう影響するかを調査する。
50M〜7Bパラメータの988種類の潜在トークン化モデル（BLT）を、圧縮率を自由に設定できる形で学習し、一般的なBPEで得られる約4.57バイト/トークンを大きく超えて検証する。
計算コストが最適化された設定では、一般に想定される「トークン数」ではなく「バイト数」で測ったデータ量に対してモデルのパラメータ数が比例してスケールする、という結果が示される。
最適な圧縮率はBPE由来の値と異なり、計算量が増えるほど低下する傾向があり、その知見は潜在トークン化・サブワード・英語以外の言語にも一般化できることが示される。

要旨: スケーリング則はデータ量と言語モデルのサイズを最適に選択することを可能にしますが、この関係に対してデータ単位であるトークンが与える影響は、依然として十分に調べられていません。本研究では、圧縮率（すなわち、トークンあたりのテキストの平均バイト数）によって制御されるトークンの情報粒度が、スケーリング傾向にどのように影響するかを体系的に検証します。私たちは、所望の圧縮率を設定できる、50Mから7Bのパラメータ範囲にわたる988の潜在トークン化モデル（BLT）を訓練します。この柔軟性により、一般的なBPEトークナイザで得られる「1トークンあたり4.57バイト」を超えて、圧縮率の役割を詳しく研究できます。実験の結果、計算最適な構成においては、モデルのパラメータ数は、一般に想定されるトークンではなく、バイトで測定したデータサイズに比例してスケールすることが分かりました（Kaplan et al., 2020; Hoffmann et al., 2022）。さらに、最適な圧縮率はBPEで得られるものとは異なり、また計算量とともに低下することを発見しました。これらの知見は、潜在トークン化とサブワード・トークン化の両方、ならびに英語以外の言語にも一般化されます。これにより、最大限の計算効率を得るためのトークン化方式の選択に関して、言語モデル開発者に指針を与えるものです。