Colinearity Decay:外れ値減衰による量子化に適したViTの学習

arXiv cs.CV / 2026/5/5

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、低ビット幅への量子化で精度が落ちやすい課題(特に活性の外れ値)に焦点を当て、視覚用Transformerの実用的な低ビット展開を目指します。
  • 外れ値を単に抑制するのではなく、あるいは事後量子化に頼るのでもなく、Transformerブロック内の行列ペアにおける有害な構造的増幅(アライメント)を制御する正則化として Colinearity-Decay(CD)を提案します。
  • CDは非侵襲的に設計されており、モデル構造やタスク損失を変えず、デカップルドな更新として適用することで学習オーバーヘッドも最小限に抑えます。
  • ImageNet-1Kでの事前学習、COCOでの検出、下流の微調整にわたる実験で、複数のパイプラインにおいて量子化精度が一貫して改善し、同時にフル精度性能も維持(あるいは向上)することを示します。
  • 著者らは、構造的正則化が低ビット展開に向けた“準備”として機能し、推論時の追加コストを伴わないと結論づけています。

Abstract

低ビット量子化は、視覚Transformerを効率的に展開するための実用的な手段ですが、活性の外れ値が、完全に量子化された展開を複雑にしています。既存手法は、量子化を事後(post-training)に扱うか、学習中に大きな活性を抑制するかのいずれかです。しかし、視覚モデルにおいて外れ値を強く制限すると、フル精度と量子化精度の間のトレードオフが悪化し得ます。私たちは、単に外れ値を抑制するのではなく、それらが有害となる原因である構造的な増幅を、学習目的(訓練目的)が制御すべきだと主張します。そこで本研究では、Transformerブロック内の順序付き行列ペアに対する構造正則化である Colinearity-Decay(CD)を提案します。CDは、有害な行列間の整列(alignment)を罰し、アーキテクチャやタスク損失を変えることなく極端な活性を緩和します。デカップルされた更新として適用することで、CDは非侵襲的であり、導入に伴う学習オーバーヘッドは最小限です。ImageNet-1Kでの事前学習、COCOでの検出、下流の微調整に適用すると、CDは複数のパイプラインで一貫して量子化精度を向上させ、フル精度の性能は維持されるか、さらには改善さえします。最終的に、本研究の結果は、構造正則化が推論時のオーバーヘッドがゼロの状態で、視覚Transformerを低ビット展開に効果的に備えさせることを示しています。