より高速なスーパーワード・トークン化
arXiv cs.CL / 2026/4/8
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、「スーパーマージ候補」を頻度に基づいて集約することで、メモリ上に全文書を保持する必要を回避しながら BoundlessBPE/SuperBPE を高速に学習する方法を提案する。
- BoundlessBPE について、学習時に行う通常のマージの学習と、スーパーマージの学習を明確に分離する二段階の定式化を提示し、元のアルゴリズムの結果と一致することを示す。
- 著者らは、1GB のデータに対して学習速度が劇的に向上したと報告しており、BoundlessBPE が 4.7 CPU 日から約 603 秒に、SuperBPE が約 593 秒になった(600倍超の高速化)。
- 更新した二段階版 BoundlessBPE と SuperBPE の間に、ほぼ同等性があることを示している。具体的には、SuperBPE の手動で選ばれるハイパーパラメータを、BoundlessBPE では自動で決定するように置き換える。
- 本論文では、BPE、BoundlessBPE、SuperBPE のための、参照用 Python 実装および性能重視の Rust 実装をオープンソースとして公開している。

