DUAL-BLADE：エッジLLM推論向けのデュアルパスNVMeダイレクトKVキャッシュオフロード

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エッジLLM推論における重要なボトルネックであるKVキャッシュがデバイスの限られたメモリ容量を超える問題を扱っており、オフロードの必要性と難しさを示しています。
DUAL-BLADEは、実行時のメモリ状況に応じてKVテンソルを「カーネルページキャッシュ経由の経路」か「NVMeダイレクト経路」のいずれかに動的に割り当てるデュアルパスのKVレジデンシ枠組みを提案します。
NVMeダイレクト経路ではファイルシステムをバイパスし、KVテンソルを連続した論理ブロックアドレス（LBA）領域にマッピングすることで、キャッシュスラッシングやソフトウェアオーバーヘッド、レイテンシの不確実性を抑えます。
ストレージI/OとGPU DMAをオーバーラップさせる適応型パイプライン並列性を組み込み、推論スループットを高めます。
評価では、メモリ予算が異なる環境下で、プリフィルのレイテンシを最大33.1%、デコードを最大42.4%削減し、SSD利用率も2.2倍向上したと報告されています。

概要: エッジAIシステム上での大規模言語モデル（LLM）推論の導入が進むにつれ、厳しいメモリ予算の下で効率的に実行することが求められます。主要な課題となるのが、Key-Value（KV）キャッシュです。KVキャッシュはしばしば利用可能なデバイスメモリを超えます。NVMeベースのオフロードはスケーラブルな容量を提供しますが、既存のファイルベース設計はカーネルのページキャッシュに大きく依存しているため、キャッシュのスラッシングが発生しやすく、レイテンシが予測不能になり、メモリ逼迫時にはソフトウェアのオーバーヘッドが高くなります。私たちはDUAL-BLADEを提案します。これは、KVテンソルを実行時のメモリ利用可能性に基づいて、ページキャッシュ経路またはNVMe-direct経路のいずれかに動的に割り当てるデュアルパスのKVレジデンシ（常駐）フレームワークです。NVMe-direct経路は、KVテンソルを連続した論理ブロックアドレス（LBA）領域にマッピングすることで、ファイルシステムをバイパスし、低オーバーヘッドでのダイレクトなストレージアクセスを可能にします。DUAL-BLADEはさらに、ストレージI/OとGPU DMAをオーバーラップさせる適応的なパイプライン並列性も取り込み、推論スループットを向上させます。評価の結果、DUAL-BLADEはI/Oボトルネックを大幅に緩和し、プリフィルおよびデコードのレイテンシをそれぞれ最大33.1%および42.4%削減しながら、多様なメモリ予算においてSSDの利用率を2.2倍に改善することが示されました。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/30Dailyインサイトを見る →

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

Dev.to

DUAL-BLADE：エッジLLM推論向けのデュアルパスNVMeダイレクトKVキャッシュオフロード

要点

💡 この記事が使われたインサイト

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer