LLMs向けの Significance-Gain ペアエンコーディング: 頻度ベースのサブワードマージングに対する統計的代替手法

arXiv cs.LG / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Significance-Gain BPE は、頻度ベースのマージを、独立性モデル下の z 統計量による有意性主導の基準と、圧縮に配慮したゲイン項を組み合わせてサブワードのマージを導くよう置き換える。
  • 生の頻度が真の隣接性と高い周辺度数を混同してしまう問題に対処し、トークン化の結束性が低下する原因となる。
  • WikiText-103 の実験(小型の因果型トランスフォーマーを用いた場合)では、検証用パープレキシティを約13%、テスト用パープレキシティを約12%低減し、文字あたりのビット数(BPC)を約0.9–1.0%改善した。
  • 語彙サイズのスイープでは、Significance-Gain BPE はさまざまな圧縮設定でしばしば低い BPC を示し、より広い効率向上の可能性を示唆している。
  • 本研究は、統計的に根拠づけられたマージ選択が、LLM のトークン化における生データ1単位あたりの予測効率を改善し得ると主張している。

要旨: サブワードトークン化は現代の言語モデル(LLMsを含む)における重要なデザイン選択であり、バイトレベルおよび文字レベルのBPEが広く用いられるベースラインとして機能します。標準のBPEは生データのペア頻度でマージを選択します。これにより圧縮が有利になりますが、真の隣接結束と、周辺度数が高いことによって頻繁になるペアを混同してしまうことがあります。本論文は Significance-Gain BPE を導入します。独立性の帰無モデルの下で z統計量によって結束を測定し、これを明示的な圧縮を意識した利得項と組み合わせた、ドロップインの代替マージ基準です。Significance-Gain BPE は WikiText-103(生データ)文字スライスを小型の因果型 Transformer 言語モデルを用いて評価し、トークン依存の困惑度と、トークナイザーに依存しない指標である文字あたりのビット(BPC)の両方を報告します。代表的な動作点で、Significance-Gain BPE は検証困惑度とテスト困惑度をそれぞれ13%と12%低減し、検証およびテストの BPC を約0.9〜1.0%向上させます。語彙サイズのスイープは、ほとんどの最も近い圧縮比較において BPC が低いことをさらに示しており、統計的に根拠のあるマージ選択が、生データのテキスト1単位あたりの予測効率を、さまざまな圧縮レジームにわたって改善し得ることを示唆します。