より高速なスーパーワード・トークン化

arXiv cs.CL / 2026/4/8

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、「スーパーマージ候補」を頻度に基づいて集約することで、メモリ上に全文書を保持する必要を回避しながら BoundlessBPE/SuperBPE を高速に学習する方法を提案する。
BoundlessBPE について、学習時に行う通常のマージの学習と、スーパーマージの学習を明確に分離する二段階の定式化を提示し、元のアルゴリズムの結果と一致することを示す。
著者らは、1GB のデータに対して学習速度が劇的に向上したと報告しており、BoundlessBPE が 4.7 CPU 日から約 603 秒に、SuperBPE が約 593 秒になった（600倍超の高速化）。
更新した二段階版 BoundlessBPE と SuperBPE の間に、ほぼ同等性があることを示している。具体的には、SuperBPE の手動で選ばれるハイパーパラメータを、BoundlessBPE では自動で決定するように置き換える。
本論文では、BPE、BoundlessBPE、SuperBPE のための、参照用 Python 実装および性能重視の Rust 実装をオープンソースとして公開している。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

AI Business

AI Business

The Batch

日経XTECH

日経XTECH