より高速なスーパーワード・トークン化

arXiv cs.CL / 2026/4/8

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、「スーパーマージ候補」を頻度に基づいて集約することで、メモリ上に全文書を保持する必要を回避しながら BoundlessBPE/SuperBPE を高速に学習する方法を提案する。
  • BoundlessBPE について、学習時に行う通常のマージの学習と、スーパーマージの学習を明確に分離する二段階の定式化を提示し、元のアルゴリズムの結果と一致することを示す。
  • 著者らは、1GB のデータに対して学習速度が劇的に向上したと報告しており、BoundlessBPE が 4.7 CPU 日から約 603 秒に、SuperBPE が約 593 秒になった(600倍超の高速化)。
  • 更新した二段階版 BoundlessBPE と SuperBPE の間に、ほぼ同等性があることを示している。具体的には、SuperBPE の手動で選ばれるハイパーパラメータを、BoundlessBPE では自動で決定するように置き換える。
  • 本論文では、BPE、BoundlessBPE、SuperBPE のための、参照用 Python 実装および性能重視の Rust 実装をオープンソースとして公開している。