圧縮の前に分離せよ：WWHOトークン化アーキテクチャ

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、標準的なBPEトークナイザが、複雑なアブギダ文字体系（たとえばシンハラ語やデーヴァナーガリー）では性能が低いと主張している。具体的には、複数コードポイントから成る連結（コンジャンクト）を断片的なサブ文字トークンへと分割してしまい、効率を損ね、推論コストを増大させる。
スタック固有の言語構造と統計的圧縮を分離する、3層から成るトークン化アーキテクチャWWHOを提案し、多言語トークン化を改善しつつ、有効な音節（シラブル）を壊さないことを目指している。
SGPEアルゴリズム（Syllable-aware Grapheme Pair Encoding）は音節を意識するよう設計され、「言語的ゼロ破壊保証（Linguistic Zero-Breakage Guarantee）」を提供することで、有効な音節がトークン間で分割されないことを保証する。
清浄化した3,000万文の学習データセットと、150万文のテストデータセットに対する実験では、一般的なベースラインに比べてトークン数を大幅に削減できることが示された。シンハラ語では最大61.7%のトークン削減が報告され、さらにこれらの言語における全体のコンテキストウィンドウ拡張性が最大4.38×向上した。
結果は、トークン化がいわゆる「Token Tax（トークン課税）」における主要な寄与要因であり、グローバルサウスに影響していることを示唆している。これにより、これらの文字体系に対するモデルのコスト低減と実効的なコンテキスト長の増大という実務的な利益が得られる可能性がある。

要旨: 現在の大規模言語モデル（LLM）の多くは、BPE（Byte Pair Encoding）ベースのトークナイザを主に使用しており、英語のような単純な構造をもつラテン文字体系では非常に効果的です。しかし、標準的なBPEトークナイザは、その構造の複雑さのために、アブギダ文字（Abugida）を処理するのが困難です。問題は、これらのトークナイザが複雑な重合（conjunct）—複数のコードポイントから成るグラフェムクラスタ（結合文字）—を、意味のないサブ文字単位へと分割してしまうことです。これは推論時に基本的な表記（オーソグラフィ）の構造を学習させることを強制し、LLMの推論効率を低下させます。また、推論コストが増大し、その結果、「トークン税（Token Tax）」としてグローバルサウスで大きな負担が生じます。そこで本研究では、新しい三層アーキテクチャWWHO（Where-What-How Often）と、SGPE（Syllable-aware Grapheme Pair Encoding）というアルゴリズムを提案します。これは、言語の規則（スクリプトの文法的ルール）を統計的な圧縮処理から切り離しつつ、シームレスな多言語トークン化を可能にします。非常に複雑なアブギダ文字体系としてシンハラ語とデーヴァナーガリー（ヒンディー語/サンスクリット）を用い、クリーニング済みの3,000万文のデータセットでWWHOを学習し、1,499,950文から成るテストセットで評価しました。シンハラ語では、SGPEは、文字/トークン比に相当するTWR（Token to Word Ratio）を1.274とし、1トークンあたり4.83文字となり、OpenAIのo200kベースと比べてトークンを61.7パーセント削減します。ヒンディー語では、TWRが1.181（o200kに対して27.0パーセント削減）を達成します。混在文字（シンハラ語、デーヴァナーガリー、英語）のデータセットでは、SGPEは全体としてTWRが1.240となり、o200kベース、Llama 4 Scout、DeepSeek V3に対してそれぞれ36.7パーセント、39.6パーセント、60.2パーセントのトークン削減を実現します。これにより、これらのアブギダ言語に対して、最大で4.38倍まで実用的なコンテキストウィンドウを実質的に拡張しつつ、「言語的ゼロ・ブレーク保証（Linguistic Zero-Breakage Guarantee）」を確実にします。これは、妥当な音節（syllable）が複数トークンにまたがって分割されることが一度もないことを保証するものです。