エッジAI向けCNN最適化手法の比較研究:早期終了(Early Exits)の役割を探る

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究は、エッジ端末上でCNNを動かすための主要な2つの戦略(静的圧縮:プルーニングと量子化、動的計算:早期終了メカニズム)を、現実的で同一の条件下で比較している。
  • これまで個別に評価されがちだったアプローチ同士を、ONNXベースの推論パイプラインを実際のエッジ・ハードウェア上で動かすことで、デプロイ目線の根拠を提示している。
  • 結果として、プルーニングと量子化はメモリ使用量を安定して削減する一方で、早期終了のように入力の難しさに応じて計算量を適応させることはできないことが示された。
  • 早期終了メカニズムは入力適応的に推論の遅延や計算を削減でき、静的手法だけでは得られない改善を可能にする。
  • 静的圧縮と早期終了を組み合わせると、推論のレイテンシとメモリ使用量を同時に下げつつ、精度の低下を最小限に抑えられることが分かった。

Abstract

エッジデバイス上で深層ニューラルネットワークを展開するには、現実的な実行条件のもとで、精度、レイテンシ、資源制約のバランスを取る必要があります。これらの制約内にモデルを収めるために、大きく二つの戦略が登場しています。すなわち、モデルサイズを恒久的に削減するプルーニングや量子化といった静的圧縮技術、そして実行時に計算コストを適応させる早期終了(early-exit)メカニズムのような動的アプローチです。これら両系統はそれぞれ単独で広く研究されている一方で、物理ハードウェア上の同一条件下で比較されることはほとんどありません。本論文では、ONNX ベースの推論パイプラインを用いて実際のエッジデバイス上で評価した、静的圧縮と動的早期終了メカニズムに関する、展開(デプロイ)指向の統一的な比較を提示します。結果として、静的手法と動的手法は、エッジ展開において本質的に異なるトレードオフを提供することを示します。プルーニングと量子化は一貫したメモリ使用量の削減をもたらす一方で、早期終了メカニズムは、静的手法では到達できない入力適応型の計算節約を可能にします。それらを組み合わせることで、高い有効性が確認されます。すなわち、推論レイテンシとメモリ使用量を同時に低減しつつ、精度の低下は最小限に抑えられ、エッジで実現可能な範囲を広げます。