概要: エッジAIシステム上での大規模言語モデル(LLM)推論の導入が進むにつれ、厳しいメモリ予算の下で効率的に実行することが求められます。主要な課題となるのが、Key-Value(KV)キャッシュです。KVキャッシュはしばしば利用可能なデバイスメモリを超えます。NVMeベースのオフロードはスケーラブルな容量を提供しますが、既存のファイルベース設計はカーネルのページキャッシュに大きく依存しているため、キャッシュのスラッシングが発生しやすく、レイテンシが予測不能になり、メモリ逼迫時にはソフトウェアのオーバーヘッドが高くなります。私たちはDUAL-BLADEを提案します。これは、KVテンソルを実行時のメモリ利用可能性に基づいて、ページキャッシュ経路またはNVMe-direct経路のいずれかに動的に割り当てるデュアルパスのKVレジデンシ(常駐)フレームワークです。NVMe-direct経路は、KVテンソルを連続した論理ブロックアドレス(LBA)領域にマッピングすることで、ファイルシステムをバイパスし、低オーバーヘッドでのダイレクトなストレージアクセスを可能にします。DUAL-BLADEはさらに、ストレージI/OとGPU DMAをオーバーラップさせる適応的なパイプライン並列性も取り込み、推論スループットを向上させます。評価の結果、DUAL-BLADEはI/Oボトルネックを大幅に緩和し、プリフィルおよびデコードのレイテンシをそれぞれ最大33.1%および42.4%削減しながら、多様なメモリ予算においてSSDの利用率を2.2倍に改善することが示されました。
DUAL-BLADE:エッジLLM推論向けのデュアルパスNVMeダイレクトKVキャッシュオフロード
arXiv cs.AI / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エッジLLM推論における重要なボトルネックであるKVキャッシュがデバイスの限られたメモリ容量を超える問題を扱っており、オフロードの必要性と難しさを示しています。
- DUAL-BLADEは、実行時のメモリ状況に応じてKVテンソルを「カーネルページキャッシュ経由の経路」か「NVMeダイレクト経路」のいずれかに動的に割り当てるデュアルパスのKVレジデンシ枠組みを提案します。
- NVMeダイレクト経路ではファイルシステムをバイパスし、KVテンソルを連続した論理ブロックアドレス(LBA)領域にマッピングすることで、キャッシュスラッシングやソフトウェアオーバーヘッド、レイテンシの不確実性を抑えます。
- ストレージI/OとGPU DMAをオーバーラップさせる適応型パイプライン並列性を組み込み、推論スループットを高めます。
- 評価では、メモリ予算が異なる環境下で、プリフィルのレイテンシを最大33.1%、デコードを最大42.4%削減し、SSD利用率も2.2倍向上したと報告されています。
