効率的なVQ-QATと混在型(ベクトル/線形)量子化ニューラルネットワーク
arXiv cs.LG / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンドツーエンド学習を可能にしつつ、ベクトル量子化(VQ)に基づいてニューラルネットワークの重みを圧縮する3つの手法を提案し、検証しました。
- コードブックの崩壊を抑えて学習を安定化させるために、従来の割当てをコサイン類似度ベースの割当てへ置き換え、top-1サンプリングとストレートスルー推定器を併用します。
- コサイン類似度と、微分可能K-means(DKM)に触発された注意機構的な定式化を組み合わせることで、加重平均による再構成を不要にしています。
- さらに、層ごとの量子化構成を適応的に選ぶために、微分可能なニューラルアーキテクチャ探索(NAS)も検討し、圧縮の最適化を狙っています。
- ただし、あらゆる量子化レベルで既存手法を一貫して上回るわけではない一方、VQベース圧縮の設計上のトレードオフや振る舞いを理解する上で有用な示唆を提供しています。




