低レイテンシーLLM推論のためのハイブリッドJIT-CUDAグラフ最適化

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、LLM推論におけるGPUカーネル起動オーバーヘッドを削減するために、Just-In-Time（JIT）コンパイルとCUDA Graph実行を組み合わせたハイブリッド推論ランタイムを提案しています。
変換器（トランスフォーマー）推論を、静的部分はCUDA Graphのリプレイで実行し、動的部分はJITで生成するカーネルで処理することで、自己回帰的デコード中の柔軟性を維持します。
非同期のグラフキャプチャと再利用を可能にし、レイテンシだけでなくばらつきの低減も狙っています。
LLaMA-2 7Bを単一GPU・バッチサイズ1で（プロンプト長10〜500トークン）評価した結果、Time-to-First-Token（TTFT）を最大66.0%削減し、TensorRT-LLMと比べてP99レイテンシも改善したと報告しています。
著者らは、このハイブリッド手法が短いシーケンスのインタラクティブなワークロードで特に有効であり、レイテンシ重視のAIアプリケーションにとって実用的な最適化になり得ると結論づけています。

Dev.to

Dev.to

Dev.to

Dev.to

ITmedia AI+