PQuantML: エンドツーエンドのハードウェア対応モデル圧縮のためのツール

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

PQuantML は、導入環境での厳しいレイテンシ制約を満たすことに焦点を当てた、エンドツーエンドのニューラルネットワークモデル圧縮のための新しいオープンソースのハードウェア対応ライブラリとして導入される。
このツールは、プルーニングと固定小数点量子化を共同または個別に適用するための統一されたワークフローを提供し、高粒度な量子化のサポートも含む。
異なる粒度の複数のプルーニング手法を含み、別個のツールチェーンを必要とせず、圧縮モデルの学習を簡素化するよう設計されている。
ジェットサブストラクチャ分類やリアルタイムの LHC 向けジェットタギングといったタスクに対する実験では、精度を維持しつつ、パラメータ数やビット幅を大幅に削減できることが示される。
本論文では、PQuantML の圧縮結果を QKeras や HGQ といった既存手法と比較する。