監視ビデオにおける軽微な強盗検知のための解釈可能な人間活動認識
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、非暴力のひったくり(snatch-and-run)を監視映像で自動検知する難しさに取り組み、特に、短時間で微妙かつ一般的な人のやり取りと見分けがつきにくい点を扱います。
- 提案手法は、YOLOベースの姿勢(ポーズ)推定器で各人物の身体キーポイントを抽出し、加害者と被害者のペアについて手先の速度・腕の伸展・近接度・相対運動といった解釈可能な運動/相互作用特徴量を計算する、姿勢駆動型のハイブリッドなパイプラインです。
- Random Forest分類器をこれらのポーズ由来の記述子で学習し、フレームごとの予測を安定化させるために時間的ヒステリシスフィルタを適用して誤報を抑えます。
- 実験では、段階的に構成したデータセットと、インターネット動画から収集した独立テストセットの両方で、シーンやカメラ視点をまたいだ一般化の良好さが示されます。
- 完全なパイプラインをNVIDIA Jetson Nanoに実装し、リアルタイム性能を報告しており、オンデバイスでの強盗の先回り検知の実現可能性を示唆しています。
- 解釈可能性について、ポーズに基づく特徴量レベルの推論を重視することで、ブラックボックスな動画分類よりも意思決定を説明しやすくすることを狙っています。




