要約: 系列モデリングは普遍的に離散的サブワードトークン化に依存して、ネイティブのバイトレベルアテンションの \mathcal{O}(N^2) 計算困難性を回避します。しかし、このヒューリスティックな量子化は人工的な形態的境界を課し、語彙依存を強制し、最適化ランドスケープの連続性を崩します。二項対立を解決するために、厳密なトークナイザーなしのフレームワークとして \textbf{HoloByte} を導入します:連続的超球面蒸留を利用します。HoloByte は離散的なバイト列を固定容量のチャンクに分割し、それらを連続的かつ厳密に有界な超球面多様体へ、可逆で次元を保存する直交回転演算子によって射影します。この空間的重ね合わせにより、マクロなトランスフォーマーは圧縮された連続表現ののみで動作することを可能にし、正確なアテンションの時間計算量を形式的に \mathcal{O}(N^2D) から \mathcal{O}\left( \frac{N^2}{W^2}D + ND^2 \right) に低減します。局所的な因果マイクロデコーダーはその後、これらの表現を結合から解くことによって正確なバイトレベルの分布を計算します。この連続的な軌道を支配するために、数学的に厳密なホログラフィック潜在平均二乗誤差を組み込んだ二重目的の定式化を提案します。これにより勾配を厳格に制限し、漸近的安定性を保証します。理論的には、連続的多様体からの誤りのない離散回復を保証するために必要な最小埋め込み次元 D = \Omega(W \ln |\mathcal{V}|) を導出します。実証的には、厳密に一致したパラメータ条件の下で、HoloByte は同等の離散的バイトペアエンコーディング(BPE)ベースラインを体系的に上回っています。これらの結果は、語彙不変な系列モデリングの数学的に厳密で計算的に扱いやすい基盤として、連続的超球面蒸留を確立します。 コードは https://github.com/VladimerKhasia/HoloByte に公開されています。
HoloByte: トークナイザー不要モデリングのための連続的超球面蒸留
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- HoloByte は、系列モデリングのために離散トークン化を連続的な超球面表現へ置換する、トークナイザー不要のフレームワークを導入する。
- 固定容量のバイトチャンクを可逆回転を用いて連続的な超球面に射影し、トランスフォーマーが圧縮表現上で動作できるようにし、正確なアテンションの計算量を削減する。
- 局所的なマイクロデコーダーが正確なバイトレベルの分布を回復し、二重目的のホログラフィック潜在平均二乗誤差が勾配を境界づけて安定性を保証する。正確な回復には理論的埋め込み次元の下限 D = Ω(W log |V|) がある。
- 実証的には、厳密に一致したパラメータ条件の下で、HoloByte は同等の離散的 BPE ベースラインを上回り、語彙不変の系列モデリングの有効性を示す。コードは公開されている。