私は、情報理論的な短い議論をまとめました。なぜ情報を失わないトークン化が言語モデルの表現力を制限せず、避けられない冗長性を生み出さないのか。主なアイデアは次のとおりです:
- 文字列上の任意のターゲット分布は、(正準構成を介して) トークン列の分布によって正確に誘導できる
- 正準分布は H(Q) = H(P) を達成する — トークン化による追加のエントロピーはない
- 実際には、モデルは非正準トークン化へ約0.5–2%の確率をリークする (Chirkova et al., 2023)、このノイズを意図的に BPE-Dropout で導入すると一般化を助けることがある
https://douglasswng.github.io/why-tokens-enough/
この種の形式化が有用だと感じる人がいるのか、それとも「当然のことだ」と思って書き留める価値がないのか。実用的な結論 — 理論的に最適なこと(正準トークン化に集中すること)が、実践上は必ずしも最良とは限らない(BPE-Dropout は役立つ)— が、私が最も興味深いと感じた点でした。
[リンク] [コメント]




