エッジ上での継続的な視覚異常検知:ベンチマークと効率的ソリューション

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚異常検知(VAD)に対して、エッジ配置の制約と継続学習の要件を同時に評価するベンチマークを提案し、メモリフットプリント、推論コスト、検知性能のトレードオフに焦点を当てます。
  • 7つのVADモデルを、軽量な3つのバックボーン・アーキテクチャ上で評価することで、エッジと継続学習の両方を考慮した最初の包括的なVADベンチマークを示し、いずれか一方の制約に最適化された解が、両方を組み合わせた場合に失敗し得ることを明らかにします。
  • DinomalyモデルをDINOに基づいて軽量化した提案手法「Tiny-Dinomaly」を導入し、メモリを13分の1に、計算量を20分の1に大幅に削減しつつ、Pixel F1を5パーセントポイント改善します。
  • また、継続学習の設定により適したものにするために、PatchCoreとPaDiMに対して効率性に特化した改良を導入します。

Abstract

目視異常検出(VAD)は、産業検査やヘルスケアなど多くのアプリケーションにおいて重要な課題である。VADは広く研究されてきた一方で、未だに大きく未解決の2つの主要な課題が、以下のような形で関連付けられたまま取り組まれていない。すなわち、計算資源が厳しく制約されるエッジ展開と、継続学習である。継続学習では、モデルが、過去に獲得した知識を忘れずに、変化するデータ分布へ適応しなければならない。本ベンチマークは、共同の効率性および適応性の制約のもとで、最適なバックボーンとVAD手法を選択するための指針を提供し、メモリフットプリント、推論コスト、検出性能の間のトレードオフを特徴付ける。これらの課題をそれぞれ単独で研究するだけでは不十分である。というのも、ある設定のために設計された手法は、もう一方の制約が同時に課されると、その前提が崩れてしまうからである。本研究では、継続学習シナリオにおけるエッジ上のVADに対する、最初の包括的なベンチマークを提案する。3つの軽量バックボーンアーキテクチャに対して、7つのVADモデルを評価する。さらに、DINO基盤モデルに基づいてDinomalyモデルを軽量化したTiny-Dinomalyを提案する。Tiny-Dinomalyは、メモリフットプリントを13分の1、計算コストを20分の1に抑えつつ、Pixel F1を5ポイント改善する。最後に、PatchCoreおよびPaDiMに対して、継続学習の設定で効率を改善するための的を絞った修正を導入する。