Abstract
最先端の群衆カウントおよびローカリゼーションは主に、密度マップと点回帰という2つのパラダイムを用いてモデル化されている。分野のセキュリティ上の影響を踏まえ、敵対的攻撃に対するモデルの頑健性への関心が高まっている。近年の研究では、敵対的パッチによって密度マップ方式のアプローチ間での転移可能性が示されてきたが、パラダイムをまたぐ攻撃(すなわち、密度マップベースのモデルと点回帰ベースのモデルの両方をまたぐ攻撃)については未検討のままである。そこで本研究では、包括的なマルチタスク損失最適化によって、密度マップと点回帰の双方のアーキテクチャパラダイムを損なう新しい敵対的フレームワークを提案する。点回帰モデルに対しては、シーン密度固有の高信頼度ロジット抑制を用い、密度マップのアプローチに対しては、ピークを狙った密度マップ抑制を用いる。これらはいずれも、摂動が有効でありながら人間の目には知覚できないことを保証するため、モデルに依存しない知覚的制約と組み合わせる。大規模な実験により、本攻撃の有効性が示されており、クリーン画像と比較して平均でMean Absolute Errorが7倍の増加を達成しつつ、競争力のある視覚品質を維持している。また、7つの最先端の群衆モデルに対して転移を成功させ、転移比は0.55から1.69の範囲にある。本手法は、最先端の転移可能な攻撃戦略と比較して、攻撃の有効性と不可視性のバランスを取りつつ実現している。ソースコードは https://github.com/simurgh7/CrowdGen で公開されている。