Prune-Quantize-Distill:効率的なニューラルネットワーク圧縮のための順序付きパイプライン
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、一般的なニューラルネットワーク圧縮の代理指標(例:パラメータ数やFLOPs)が、特に非構造的スパース性においては、メモリアクセスの不規則さやスパースカーネルのオーバーヘッドのため、実際のCPUウォールクロック遅延をしばしば予測できないと主張している。
- CPUおよびメモリの制約下で計測したレイテンシを明示的に目標とする、順序付きの圧縮パイプラインを提案する。具体的には、1段目に非構造的プルーニング、2段目にINT8の量子化を考慮した学習(QAT)、3段目に知識蒸留(KD)を行う。
- 実験結果から、INT8 QATが主な実行時の利点をもたらし、プルーニングは主として後続の低精度段階のための頑健性と容量を改善することが示される。KDは、配備されるスパースINT8の形式を変えずに精度を回復する。
- CIFAR-10/100でResNet-18、WRN-28-10、VGG-16-BNを用いた場合、このパイプラインは、単独の手法のいずれよりも優れた精度–サイズ–レイテンシのトレードオフを達成し、競争力のある精度とコンパクトなチェックポイントを保ちながら、CPUレイテンシを約0.99〜1.42 msにまで到達させる。
- 並び順が重要である。固定したエポック割り当て下で行ったアブレーション研究では、選定した段階順が、他の検討した順列よりも概ね優れており、計測した実行時間を用いて、精度–サイズ–レイテンシ空間で共同評価するための実践的な指針が導かれている。




