GPUTOK: GPUアクセラレーテッドバイトレベルBPEトークナイゼーション

arXiv cs.CL / 2026/3/4

Tools & Practical Usage

要点

  • GPUTOKはGPT-2のマージルールに従うGPUベースのバイトレベルBPEトークナイザーで、数百万トークンのコンテキストウィンドウを持つ大規模言語モデルのトークナイゼーションを高速化するために設計されています。
  • 基本的なBlockBPEカーネルと、cuCollectionsの静的マップ、CUB還元、Python向けpybind11インターフェースを利用した最適化バージョンの2つの実装があります。
  • 最大131kトークンの長いWikiText103入力において、最適化されたGPUトークナイザーはtiktokenより約1.7倍、HuggingFace GPT-2トークナイザーより約7.6倍高速で、同等のトークンを生成します。
  • パフォーマンスプロファイリングによると、CUDA API時間の70〜80%がメモリアロケーションに費やされており、メモリプーリングが今後の主要な最適化になることが示唆されています。
  • WikiText103の生成タスクでの評価では、GPUトークナイザーの出力の類似度と重複メトリクスはCPUトークナイザーに近く、速度を上げながら出力品質を維持していることが確認されました。

コンピュータサイエンス > 計算と言語

arXiv:2603.02597 (cs)
[2026年3月3日に投稿]

題目:GPUTOK: GPU Accelerated Byte Level BPE Tokenization

GPUTOK: GPU Accelerated Byte Level BPE Tokenization という題目の論文について、Venu Gopal Kadamba と他1名の著者によるPDFを表示
PDFを表示 HTML(実験的)
要旨:大規模言語モデルが数百万トークンのコンテキストウィンドウへと移行するにつれ、CPUトークナイザは主要なボトルネックになります。CPUトークナイザはテキストを1ステップずつ処理する一方で、強力なGPUは遊休のままになっているためです。私たちは、GPT-2のマージ規則に従うGPUベースのバイトレベルBPEトークナイザを構築しました。これには、基本的なBlockBPEスタイルのカーネルと、cuCollectionsの静的マップ、CUBのリダクション、Python向けのpybind11インターフェースを用いる、より高速で最適化されたバージョンが含まれます。
WikiText103のシーケンス(最大131kトークン)において、最適化されたGPUトークナイザはCPU版と同一のトークンを生成し、最長入力ではtiktokenより約1.7倍高速、HuggingFace GPT-2トークナイザより約7.6倍高速です。Nsightのプロファイリングでは、CUDA API時間の70〜80%がメモリ確保に費やされていることが示されるため、次に大きな速度向上はメモリプーリングの追加によって得られるはずです。WikiText103プロンプトを用いた生成タスクでのテストでは、GPUトークナイザの出力は、類似度およびオーバーラップの指標において、tiktokenとHuggingFace GPT-2に対しておよそ1パーセンテージポイント以内に収まっており、長いコンテキストでの推論をより現実的にしつつ出力品質を維持していることを意味します。
主題: 計算と言語 (cs.CL); 人工知能 (cs.AI); 分散・並列・クラスタ計算 (cs.DC); 機械学習 (cs.LG)
引用形式: arXiv:2603.02597 [cs.CL]
  (または arXiv:2603.02597v1 [cs.CL] この版の場合)
  https://doi.org/10.48550/arXiv.2603.02597
詳細を学ぶためにフォーカス
DataCite 経由で付与された arXiv 発行 DOI

投稿履歴

作成者: Venu Gopal Kadamba [メールを見る]
[v1] 2026年3月3日(火) 04:48:28 UTC (41 KB)
全文テキストへのリンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.CL
< prev   |   next >
返却形式: {"translated": "翻訳されたHTML"}
ここから閲覧するには:
BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

この記事に関連するコード、データ、メディア

alphaXivの切り替え
alphaXiv (alphaXivとは?)
コードへのリンクの切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHub トグル
DagsHub (DagsHubとは?)
GotitPub トグル
Gotit.pub (GotitPubとは?)
Huggingface トグル
Hugging Face (Huggingfaceとは?)
コードへのリンク トグル
Papers with Code (Papers with Codeとは?)
ScienceCast トグル
ScienceCast (ScienceCastとは?)
デモ

デモ

Replicate トグル
Replicate (Replicateとは?)
Spaces トグル
Hugging Face Spaces (Spacesとは?)
Spaces トグル
TXYZ.AI (TXYZ.AIとは?)
関連論文

レコメンダーおよび検索ツール

Influence Flowerへのリンク
Influence Flower (Influence Flowerとは?)
COREレコメンダーのトグル
CORE レコメンダー (COREとは?)
arXivLabs について

arXivLabs:コミュニティの協力者とともに行う実験的なプロジェクト

arXivLabs は、協力者が当サイト上で直接新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。

arXivLabs に携わる個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという私たちの価値観を受け入れ、そしてその価値観を理解した上で同意しています。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとだけ取引します。

arXiv のコミュニティにとって価値をもたらすプロジェクトのアイデアはありますか? arXivLabs について詳しく知る