効率的なVQ-QATと混在型（ベクトル/線形）量子化ニューラルネットワーク

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エンドツーエンド学習を可能にしつつ、ベクトル量子化（VQ）に基づいてニューラルネットワークの重みを圧縮する3つの手法を提案し、検証しました。
コードブックの崩壊を抑えて学習を安定化させるために、従来の割当てをコサイン類似度ベースの割当てへ置き換え、top-1サンプリングとストレートスルー推定器を併用します。
コサイン類似度と、微分可能K-means（DKM）に触発された注意機構的な定式化を組み合わせることで、加重平均による再構成を不要にしています。
さらに、層ごとの量子化構成を適応的に選ぶために、微分可能なニューラルアーキテクチャ探索（NAS）も検討し、圧縮の最適化を狙っています。
ただし、あらゆる量子化レベルで既存手法を一貫して上回るわけではない一方、VQベース圧縮の設計上のトレードオフや振る舞いを理解する上で有用な示唆を提供しています。

Abstract

本研究では、ベクトル量子化（VQ）に基づくモデル重み圧縮のための3つの手法を開発し、検証しました。コードブックの崩壊を抑え、エンドツーエンド学習を可能にするために、コサイン類似度に基づく割り当てを採用しました。Differentiable K-Means（DKM）における注意（attention）に基づく定式化の考え方を土台として、割り当てにコサイン類似度を用い、さらに top-1 サンプリングとストレートスルー推定器を組み合わせることで、このアプローチを発展させました。その結果、重み付き平均による再構成の必要性をなくしました。最後に、層ごとの量子化構成を適応的に選択するために、微分可能なニューラルアーキテクチャ探索（NAS）を利用することを検討し、圧縮プロセスをさらに最適化しました。本手法は、すべての量子化レベルにおいて既存手法を一貫して上回るわけではありませんが、VQベースのモデル圧縮手法における設計上のトレードオフや挙動について有用な知見を提供します。