Prune-Quantize-Distill:効率的なニューラルネットワーク圧縮のための順序付きパイプライン

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、一般的なニューラルネットワーク圧縮の代理指標(例:パラメータ数やFLOPs)が、特に非構造的スパース性においては、メモリアクセスの不規則さやスパースカーネルのオーバーヘッドのため、実際のCPUウォールクロック遅延をしばしば予測できないと主張している。
  • CPUおよびメモリの制約下で計測したレイテンシを明示的に目標とする、順序付きの圧縮パイプラインを提案する。具体的には、1段目に非構造的プルーニング、2段目にINT8の量子化を考慮した学習(QAT)、3段目に知識蒸留(KD)を行う。
  • 実験結果から、INT8 QATが主な実行時の利点をもたらし、プルーニングは主として後続の低精度段階のための頑健性と容量を改善することが示される。KDは、配備されるスパースINT8の形式を変えずに精度を回復する。
  • CIFAR-10/100でResNet-18、WRN-28-10、VGG-16-BNを用いた場合、このパイプラインは、単独の手法のいずれよりも優れた精度–サイズ–レイテンシのトレードオフを達成し、競争力のある精度とコンパクトなチェックポイントを保ちながら、CPUレイテンシを約0.99〜1.42 msにまで到達させる。
  • 並び順が重要である。固定したエポック割り当て下で行ったアブレーション研究では、選定した段階順が、他の検討した順列よりも概ね優れており、計測した実行時間を用いて、精度–サイズ–レイテンシ空間で共同評価するための実践的な指針が導かれている。

Abstract

現代のデプロイでは、多くの場合、厳しいCPUおよびメモリの制約の下で精度を効率とトレードする必要があります。しかし、パラメータ数やFLOPsのような一般的な圧縮プロキシは、ウォールクロックの推論時間を確実に予測しません。特に、非構造的スパース性はモデルの保存容量を削減し得る一方で、メモリアクセスが不規則になり、スパースカーネルのオーバーヘッドが増えるため、標準的なCPU上での実行を加速できない(場合によってはわずかに遅くなる)ことがあります。この圧縮と加速のギャップに動機づけられ、我々は、広く用いられている3つの手法を組み合わせて計測されたレイテンシを狙う、実用的で順序づけられたパイプラインを研究します。具体的には、非構造的プルーニング、INT8量子化に対する認識訓練(QAT)、および知識蒸留(KD)です。実験的には、INT8 QATが支配的な実行時の利得をもたらし、プルーニングは主に、続く低精度最適化の頑健性を高める能力削減の事前条件として機能します。最後に適用されるKDは、すでに制約されたスパースなINT8の範囲内で精度を回復しますが、デプロイの形は変えません。CIFAR-10/100で、3つのバックボーン(ResNet-18、WRN-28-10、VGG-16-BN)を用いて評価します。すべての設定において、この順序づけられたパイプラインは単一の手法だけでは到達できない、より強い精度—サイズ—レイテンシのフロンティアを実現し、競争力のある精度とコンパクトなチェックポイントを伴って、0.99〜1.42 msのCPUレイテンシを達成します。固定した20/40/40エポック配分による制御された順序のアブレーションにより、段階の順序が重要であることがさらに確認されます。提案する順序は、試した順列の中で一般に最も良い性能を示します。全体として、我々の結果はエッジデプロイに関するシンプルな指針を提供します。プロキシ指標だけでなく、計測した実行時間を用いて、精度—サイズ—レイテンシの共同空間における圧縮の選択肢を評価してください。