MultiTok:LZW圧縮に着想を得た効率的なLLMのための可変長トークン化

arXiv cs.CL / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、LZWのユニバーサル圧縮に着想を得た可変長トークン化手法「MultiTok」を提案し、反復するフレーズを複数語のトークンに圧縮することでLLM学習を効率化します。
  • 提案手法は、既存のトークナイザやベースラインと同等の精度を維持しつつ、データ量や計算資源などの学習コストを削減できると主張しています。
  • 実験では、MultiTokが単体のトークナイザとしても、既存トークナイザへのアドオンとしても、BERTおよびGPTの標準に近い性能を達成したと報告されています。
  • 著者らは、従来手法に比べて約2.5倍の学習高速化と、30%以上の学習データ削減を実現したと述べています。
  • 全体としてMultiTokは、言語モデリングの品質を落とさずに効率を高めるための実用的なトークン化改善として位置づけられています。

要旨: 大規模言語モデルは、より複雑な自然言語処理のための技術を導入することで、AIの見通しを大きく変えてきました。しかし、このようなLLMを学習するための現行の手法では、大量のデータ、高価な計算機器、長時間にわたる学習などを含む、膨大なリソースが必要です。この問題を解決するために、本論文は、反復するフレーズを複数語トークンに圧縮する、ユニバーサルなLempel-Ziv-Welchデータ圧縮に着想を得た新しいトークン化手法を提案します。新しいトークン化ツールであるMultiTokを用いることで、より簡潔で圧縮された学習データに対して同様の精度を提供しつつ、言語モデルを著しく効率的に学習できることを示します。実際、我々の結果は、MultiTokがスタンドアロンのトークナイザとして、また既存のトークナイザへのアドオンとして、BERTおよびGPTの標準と同等に近い性能を達成すること、さらに30%以上少ない学習データで約2.5倍高速な学習を実現することを示しています。