DPUかGPUか：ニューラルネットワーク推論を高速化するには？両方を使わないのはなぜ—Split CNN Inference

arXiv cs.CV / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DPUとGPUにCNN推論を分割する「Split CNN Inference」を提案し、エッジ端末での動画・画像ストリーミングにおける低遅延化を目指している。
Versal VCK190のDPUで入力画像に対するCNNの初期層をデータソース近傍で実行し、その後は非同期でパイプラインしながら残りの層をNVIDIA RTX 2080のGPUで処理することで、全体のレイテンシを抑える。
どの層をどのデバイスに割り当てるかを自動化するために、GNN（グラフニューラルネットワーク）に基づくパーティション指数予測手法を提案している。
LeNet-5、ResNet各種、VGG16、MobileNetv2といったモデルで評価した結果、DPUのみ実行より最大2.48×、GPUのみ実行より最大3.37×のレイテンシ改善が示され、学習済みGNNの分割精度は96.27%に達した。

Abstract

エッジデバイス上での動画および画像ストリーミングには低遅延が必要です。これに対処するため、ニューラルネットワーク（NNs）は広く用いられており、従来の研究は主に、GPU（Graphics Processing Units）、FPGA（Field Programmable Gate Arrays）、DPU（Deep Learning Processing Units）のような単一のハードウェア装置によってNNを高速化することに焦点が当てられてきました。しかし、これらの装置を組み合わせることで、さらに遅延を削減できることが観察されています。本論文では、DPUとGPUにわたってCNN推論を分割する（Split CNN Inference）手法を提案します。最初の分割は、入力画像を処理する初期のCNN層から構成されるVersal VCK190のAIエンジン（DPU）上で実行されます。DPUは、データの発生源に近い場所で最初の分割を処理します。非同期にパイプライン化されることで、GPUは残りの層を実行します。GPU（NVIDIA RTX 2080）は、データ発生源（ストレージ／カメラ）からGPUへのデータ転送が削減されるものの、第2の分割を処理します。さらに、Split Inferenceに必要なCNNの分割を自動化するために、グラフニューラルネットワーク（GNN）ベースの分割インデックス予測手法を提案します。LeNet-5、ResNet18/50/101/152、VGG16、MobileNetv2といった確立されたモデルを分析します。その結果、DPUのみでの実行に対して最大2.48倍の遅延改善、GPUのみでの実行に対して最大3.37倍の遅延改善が示されます。学習済みのGNNモデルは、適切なデバイス間で層を96.27%の精度で分割します。

LLMのためのとても基本的なリトマステスト

Reddit r/LocalLLaMA

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

Dev.to

鉄の意思、鉄の問題：Kiwi-chanの採掘トラブル記！⛏️

Dev.to

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Dev.to

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

Dev.to

DPUかGPUか：ニューラルネットワーク推論を高速化するには？両方を使わないのはなぜ—Split CNN Inference

要点

Abstract

関連記事

LLMのためのとても基本的なリトマステスト

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

鉄の意思、鉄の問題：Kiwi-chanの採掘トラブル記！⛏️

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer