AI Navigate

弱教師あり設定におけるクリップレベル監視異常検知のためのコンパクトVLMのベンチマーク

arXiv cs.CV / 2026/3/17

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本研究は、弱教師あり設定におけるクリップレベルの監視異常検知のために、コンパクトなビジョン-ランゲージモデル(VLM)をベンチマークし、前処理、プロンプト設計、データセットの分割、指標、実行時設定を標準化する。
  • パラメータ効率的に適応されたコンパクトVLMを、トレーニング不要のVLMパイプラインおよび弱教師ありベースラインと比較し、精度、適合率、再現率、F1、ROC-AUC、および各クリップあたりのレイテンシといった指標で評価する。
  • 統一プロトコルの下で、コンパクトVLMは確立されたアプローチに匹敵するかそれを上回る性能を示し、各クリップあたりのレイテンシを維持しつつ、プロンプトへの感度を抑えた状態で競争力を保つ。
  • 本研究は、パラメータ効率的なファインチューニングが、透明性の高い実験設定のもとで、コンパクトVLMを信頼性の高いクリップレベルの異常検知器として機能させ、精度と効率の有利なトレードオフを提供することを示している。

概要: CCTV の安全監視は、異常検知器が弱教師付きであっても、クリップレベルの信頼できる精度とクリップごとの待機時間を予測可能に組み合わせることを要求します。 本研究は、この領域の実用的な検出器として、コンパクトなビジョン-ランゲージモデル(VLM)を検討します。 統一された評価プロトコルは、前処理、プロンプト付与、データセットの分割、指標、および実行時設定を標準化し、パラメータ効率的に適応したコンパクトVLMを、トレーニング不要のVLMパイプラインおよび弱教師ありのベースラインと比較します。 評価は、検出の品質と効率を同時に定量化するため、精度、適合率、再現率、F1、ROC-AUC、およびクリップあたりの平均待機時間に渡ります。 パラメータ効率的な適応により、コンパクトVLMは既存のアプローチと同等、場合によってはそれを上回る性能を達成しつつ、クリップあたりの待機時間も競争力を維持します。 適応はさらにプロンプト感度を低減し、共有プロトコル下でのプロンプトレジームの間でより一貫した挙動を生み出します。 これらの結果は、パラメータ効率的なファインチューニングが、透明で一貫した実験設定の中で、信頼できるクリップレベルの異常検知器としてコンパクトVLMを機能させ、精度と効率の有利なトレードオフを生み出すことを示しています。