DPUかGPUか:ニューラルネットワーク推論を高速化するには?両方を使わないのはなぜ—Split CNN Inference
arXiv cs.CV / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DPUとGPUにCNN推論を分割する「Split CNN Inference」を提案し、エッジ端末での動画・画像ストリーミングにおける低遅延化を目指している。
- Versal VCK190のDPUで入力画像に対するCNNの初期層をデータソース近傍で実行し、その後は非同期でパイプラインしながら残りの層をNVIDIA RTX 2080のGPUで処理することで、全体のレイテンシを抑える。
- どの層をどのデバイスに割り当てるかを自動化するために、GNN(グラフニューラルネットワーク)に基づくパーティション指数予測手法を提案している。
- LeNet-5、ResNet各種、VGG16、MobileNetv2といったモデルで評価した結果、DPUのみ実行より最大2.48×、GPUのみ実行より最大3.37×のレイテンシ改善が示され、学習済みGNNの分割精度は96.27%に達した。



