QVAD:効率的かつ学習不要な動画異常検出のための、質問中心のエージェント型フレームワーク
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、学習不要の動画異常検出のための質問中心のエージェント型フレームワークであるQVADを提案する。これは、静的なプロンプトを置き換え、LLMとVLMの間の反復的な対話によって実現される。
- QVADは、視覚的文脈に基づく「プロンプト更新(prompt-updating)」を用いることで、小型のVLMでも高忠実度なキャプション生成と、モデルパラメータを更新せずにより正確な意味推論を行えるようにする。
- 本手法は、複数のベンチマーク(UCF-Crime、XD-Violence、UBNormal)で最先端の性能に到達すると報告されており、競合手法と比べて使用するパラメータ量が一部で済む。
- また、QVADは単一シーンのComplexVADデータセットにも良好に汎化することが主張されており、学習/テストの設定を超えた頑健性が示される。
- 本フレームワークは、推論時の高速性と低メモリ使用量を備え、計算資源が限られたエッジデバイスへの展開を目的としている。



