Abstract
プレトークナイゼーション(Pretokenization)は、Byte-level BPEトークナイザにおける重要な逐次パスですが、エッジ側推論のための最適化はほとんど行われていません。提案する新しい実装であるPeek2は、GPT-3、LLaMa-3、Qwen-2.5で使用されているcl100k系のプレトークナイザのドロップイン置換として機能します。オリジナルのcl100kプレトークナイザのロジックを分解して分析した上で、線形時間計算量と、定数で些細な(トリビアルな)メモリ使用量を持つ新しいプレトークナイゼーション・アルゴリズムを導入し、エッジ向けのシナリオに適した形にしました。テスト結果は、マイクロベンチマークのスループットを最大で 2.48\times 向上させ、さらに、データセットに応じて、Byte-level BPEエンコーディング全体の処理における総合スループットを 1.14\times 改善し、ベースラインのRegexベース・トークナイザと同一の結果を提供することを示しています。


