Peek2:エッジ端末向けLLM推論のための、正規表現不要なバイトレベルBPE前処理(プレトークナイザー)

arXiv cs.CL / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • Peek2は、GPT-3、LLaMA-3、Qwen-2.5で使われるcl100kのような前処理(プレトークナイザー)を置き換えるための、正規表現不要のバイトレベルBPEプレトークナイザーです。
  • 既存のcl100k前処理のロジックを分解・分析したうえで、エッジ端末の推論に適した線形時間計算量と一定で非常に軽いメモリ使用量を備える新しいアルゴリズムを提案しています。
  • ベンチマークでは、前処理のマイクロベンチ性能が最大2.48×向上することが示されています。
  • バイトレベルBPEのエンドツーエンド処理全体でも、データセットによっては約1.14×のスループット改善が得られ、かつベースラインの出力と同一であると報告されています。

Abstract

プレトークナイゼーション(Pretokenization)は、Byte-level BPEトークナイザにおける重要な逐次パスですが、エッジ側推論のための最適化はほとんど行われていません。提案する新しい実装であるPeek2は、GPT-3、LLaMa-3、Qwen-2.5で使用されているcl100k系のプレトークナイザのドロップイン置換として機能します。オリジナルのcl100kプレトークナイザのロジックを分解して分析した上で、線形時間計算量と、定数で些細な(トリビアルな)メモリ使用量を持つ新しいプレトークナイゼーション・アルゴリズムを導入し、エッジ向けのシナリオに適した形にしました。テスト結果は、マイクロベンチマークのスループットを最大で 2.48\times 向上させ、さらに、データセットに応じて、Byte-level BPEエンコーディング全体の処理における総合スループットを 1.14\times 改善し、ベースラインのRegexベース・トークナイザと同一の結果を提供することを示しています。