QAPruner：マルチモーダル大規模言語モデル向けの量子化認識ビジョン・トークン・プルーニング

arXiv cs.CV / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、マルチモーダルLLMにおけるビジョン・トークンのプルーニングとポストトレーニング量子化（PTQ）は密接に結び付いており、素朴なプルーニングは数値安定性に必要な活性の外れ値を取り除いてしまい、低ビット設定（例：W4A4）での量子化誤差を増大させることを示している。
本稿は、シミュレーションによるグループ単位の量子化誤差と外れ値強度を組み合わせた軽量なハイブリッド感度指標に加え、意味的関連度スコアを用いる「QAPruner」という量子化認識プルーニング手法を提案する。
標準的なLLaVAアーキテクチャでの実験により、QAPrunerは、PTQとプルーニングの相互作用を考慮しない組合せベースラインよりも優れた性能を示す。
非常に攻撃的な設定で視覚トークンを12.5%のみ保持する場合でも、QAPrunerはベースラインに対して精度を2.24%改善し、プルーニングなしの密な量子化をも上回ることがある。
著者らは、QAPrunerをMLLMにおける正確な低ビット推論のために、視覚トークン・プルーニングとPTQを明示的に共同最適化する最初のアプローチとして位置付けている。