DMAストリーミングフレームワーク:高性能AIデータパスのカーネルレベルバッファオーケストレーション

arXiv cs.AI / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep Analysis

要点

  • dmaplane は、AIデータパスの DMA バッファライフサイクルとオーケストレーションを明示的に管理するために、/dev/dmaplane で安定した UAPI を公開する Linux カーネルモジュールです。
  • リングベースのコマンドチャネル、DMA バッファライフサイクル管理、クロスデバイス共有のための dma-buf エクスポート、カーネル空間 RDMA エンジン、NUMA対応の割り当て/検証、クレジットベースのフロー制御、低オーバーヘッドの可観測性、PCIe BAR ピン留めによるGPUメモリ統合を提供します。
  • 本論文は、DRAMスケールにおける NUMA跨ノードペナルティ、持続的な RDMA 負荷下での完了安全なフロー制御、cudaMemcpy に対する GPU BAR マッピング階層を評価します。
  • RDMA WRITE WITH IMMEDIATE を介して2台のマシン間で KV キャッシュのチャンクを転送し、受信側でテンソルビューを再構成することで、エンドツーエンドの分散推論を実証します。測定には Soft-RoCE を使用します。
AIトランスポートライブラリはデータを効率的に転送しますが、通常、バッファはすでに正しく割り当てられ、配置され、共有され、登録され、そして完了および後処理のプレッシャー下で安全であると仮定しています。本論文は、この欠落している層をバッファオーケストレーションとして明示化する Linux カーネルモジュール dmaplane を提案します。dmaplane は /dev/dmaplane 経由で安定したカーネル UAPI を公開し、リングベースのコマンドチャネル、DMA バッファライフサイクル管理、クロスデバイス共有のための dma-buf エクスポート、カーネル空間 RDMA エンジン、NUMA対応の割り当てと検証、クレジットベースのフロー制御、低オーバーヘッドの可観測性、PCIe BAR ピン留めによる GPU メモリ統合を組み合わせます。私たちは DRAM スケールでの NUMA 跨ノードペナルティ、持続的な RDMA 負荷下での完了安全なフロー制御、そして cudaMemcpy に対する GPU BAR マッピング階層の測定によってオーケストレーションの感度を評価します。また、RDMA WRITE WITH IMMEDIATE を介して2台のマシン間で KV キャッシュのチャンクを転送し、受信側でテンソルビューを再構成することで、エンドツーエンドの分散推論を実証します。RDMA 測定には Soft-RoCE を用い、測定結果とベンダー非依存の特性を構築上区別します。