DPUかGPUか:ニューラルネットワーク推論を高速化するには?両方を使わないのはなぜ—Split CNN Inference

arXiv cs.CV / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DPUとGPUにCNN推論を分割する「Split CNN Inference」を提案し、エッジ端末での動画・画像ストリーミングにおける低遅延化を目指している。
  • Versal VCK190のDPUで入力画像に対するCNNの初期層をデータソース近傍で実行し、その後は非同期でパイプラインしながら残りの層をNVIDIA RTX 2080のGPUで処理することで、全体のレイテンシを抑える。
  • どの層をどのデバイスに割り当てるかを自動化するために、GNN(グラフニューラルネットワーク)に基づくパーティション指数予測手法を提案している。
  • LeNet-5、ResNet各種、VGG16、MobileNetv2といったモデルで評価した結果、DPUのみ実行より最大2.48×、GPUのみ実行より最大3.37×のレイテンシ改善が示され、学習済みGNNの分割精度は96.27%に達した。

Abstract

エッジデバイス上での動画および画像ストリーミングには低遅延が必要です。これに対処するため、ニューラルネットワーク(NNs)は広く用いられており、従来の研究は主に、GPU(Graphics Processing Units)、FPGA(Field Programmable Gate Arrays)、DPU(Deep Learning Processing Units)のような単一のハードウェア装置によってNNを高速化することに焦点が当てられてきました。しかし、これらの装置を組み合わせることで、さらに遅延を削減できることが観察されています。本論文では、DPUとGPUにわたってCNN推論を分割する(Split CNN Inference)手法を提案します。最初の分割は、入力画像を処理する初期のCNN層から構成されるVersal VCK190のAIエンジン(DPU)上で実行されます。DPUは、データの発生源に近い場所で最初の分割を処理します。非同期にパイプライン化されることで、GPUは残りの層を実行します。GPU(NVIDIA RTX 2080)は、データ発生源(ストレージ/カメラ)からGPUへのデータ転送が削減されるものの、第2の分割を処理します。さらに、Split Inferenceに必要なCNNの分割を自動化するために、グラフニューラルネットワーク(GNN)ベースの分割インデックス予測手法を提案します。LeNet-5、ResNet18/50/101/152、VGG16、MobileNetv2といった確立されたモデルを分析します。その結果、DPUのみでの実行に対して最大2.48倍の遅延改善、GPUのみでの実行に対して最大3.37倍の遅延改善が示されます。学習済みのGNNモデルは、適切なデバイス間で層を96.27%の精度で分割します。