QVAD：効率的かつ学習不要な動画異常検出のための、質問中心のエージェント型フレームワーク

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習不要の動画異常検出のための質問中心のエージェント型フレームワークであるQVADを提案する。これは、静的なプロンプトを置き換え、LLMとVLMの間の反復的な対話によって実現される。
QVADは、視覚的文脈に基づく「プロンプト更新（prompt-updating）」を用いることで、小型のVLMでも高忠実度なキャプション生成と、モデルパラメータを更新せずにより正確な意味推論を行えるようにする。
本手法は、複数のベンチマーク（UCF-Crime、XD-Violence、UBNormal）で最先端の性能に到達すると報告されており、競合手法と比べて使用するパラメータ量が一部で済む。
また、QVADは単一シーンのComplexVADデータセットにも良好に汎化することが主張されており、学習／テストの設定を超えた頑健性が示される。
本フレームワークは、推論時の高速性と低メモリ使用量を備え、計算資源が限られたエッジデバイスへの展開を目的としている。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH