モバイルエッジにおける周波数を考慮した低遅延推定のための非同期CPU-GPU結合の制御

arXiv cs.AI / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、DVFSによりCPU/GPU周波数が変動する状況で、モバイルエッジ上のモデル推論レイテンシを正確に見積もる手法を扱い、静的プロファイリングの限界を解決しようとします。
  • CPUのカーネル投入とGPU実行という非同期な連成の複雑さのため、単純な解析的スケーリングではレイテンシ変動を予測できないと指摘しています。
  • 提案手法FLAMEは、層ごとのモデリングで重なり(並列性)を定量化し、非同期相互作用に起因するパイプラインバブルを考慮したうえで、全モデルにわたって集約します。
  • FLAMEは、周波数組合せにまたがる推定精度を保ちつつ、必要なプロファイリングサンプル数を大幅に削減でき、DNNでは数時間を数分へ、SLMでは数日を数分へ短縮できると述べています。
  • さらに、FLAMEを期限(デッドライン)を考慮したDVFSに適用し、従来手法よりも電力効率とレイテンシ保証の両面で優れていることを示します。