W4A4がカモフラージュ物体検出を壊す：トークングループのデュアル制約による活性化量子化

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

論文は、Transformerベースのカモフラージュ物体検出（COD）に対するポストトレーニングW4A4（重み4ビット／活性化4ビット）量子化を検討し、CODでは低ビット化が難しくなる「量子化クリフ」を示している。
原因は、重い尾を持つ背景トークンが共通の活性化レンジを支配して量子化ステップが増大し、その結果として重要だが弱い境界手がかりがゼロビンに押し込まれるという、トークン局所的なボトルネックだと特定している。
これに対処するため、COD-TDQ（COD-aware Token-group Dual-constraint activation Quantization）を提案し、Direct-Sum Token-Group（DSTG）によるトークングループのスケーリングと、Dual-Constraint Range Projection（DCRP）によるクリップレンジ射影で、ステップと分散の比およびゼロビン質量を抑制する。
4つのCODベンチマークと2つの基盤モデル（CFRN、ESCNet）で検証したところ、COD-TDQは再学習なしで既存の最先端量子化法よりSαスコアを0.12以上改善し、コードも公開予定としている。

概要: カモフラージュ物体検出（COD）は、背景に意図的に溶け込むことで物体を分割（検出）するため、予測は微細なテクスチャや境界の手がかりに依存します。CODは、厳しいオンデバイスのメモリおよびレイテンシ制約のもとでしばしば必要となるため、低ビット推論が強く望まれます。しかし、CODは積極的に定量化（量子化）するうえで、非常に定量化が難しい部類です。私たちは、TransformerベースのCODに対する事後学習型のW4A4量子化を研究し、タスク固有の「崖」を見出します。重い裾（heavy-tailed）の背景トークンが共有された活性化レンジを支配し、その結果ステップサイズが増大し、弱いが構造化された境界の手がかりがゼロビンへ押し込まれてしまいます。これはトークンローカルなボトルネックを露呈させます――トークン間のレンジ支配を取り除き、ゼロビンの質量を4ビットの活性化のもとで上限付きにすることです。これに対処するため、CODに特化したToken-group Dual-constraint activation Quantization手法であるCOD-TDQを導入します。COD-TDQは2つの連動したステップにより、このトークンローカルなボトルネックに対処します。Direct-Sum Token-Group（DSTG）は、トークングループのスケールを割り当てることでトークン間のレンジ支配を抑制し、Dual-Constraint Range Projection（DCRP）は、各トークングループのクリップレンジを射影して、ステップ対分散（dispersion）の比とゼロビンの質量が有界となるようにします。4つのCODベンチマークと2つのベースラインモデル（CFRNおよびESCNet）において、COD-TDQは、再学習を行わない状態で、最先端の量子化手法に比べS{\alpha}スコアを一貫して0.12以上上回ります。コードは公開される予定です。