監視ビデオにおける軽微な強盗検知のための解釈可能な人間活動認識

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、非暴力のひったくり（snatch-and-run）を監視映像で自動検知する難しさに取り組み、特に、短時間で微妙かつ一般的な人のやり取りと見分けがつきにくい点を扱います。
提案手法は、YOLOベースの姿勢（ポーズ）推定器で各人物の身体キーポイントを抽出し、加害者と被害者のペアについて手先の速度・腕の伸展・近接度・相対運動といった解釈可能な運動/相互作用特徴量を計算する、姿勢駆動型のハイブリッドなパイプラインです。
Random Forest分類器をこれらのポーズ由来の記述子で学習し、フレームごとの予測を安定化させるために時間的ヒステリシスフィルタを適用して誤報を抑えます。
実験では、段階的に構成したデータセットと、インターネット動画から収集した独立テストセットの両方で、シーンやカメラ視点をまたいだ一般化の良好さが示されます。
完全なパイプラインをNVIDIA Jetson Nanoに実装し、リアルタイム性能を報告しており、オンデバイスでの強盗の先回り検知の実現可能性を示唆しています。
解釈可能性について、ポーズに基づく特徴量レベルの推論を重視することで、ブラックボックスな動画分類よりも意思決定を説明しやすくすることを狙っています。

Abstract

非暴力の路上強盗（スナッチ・アンド・ラン）は、事件が短時間で、微妙であり、また制約のない監視映像においては善良な人同士のやり取りとしばしば見分けがつかないため、自動的に検出することが困難です。本論文では、エッジ展開に適した解釈可能な分類段階と、リアルタイム認識を組み合わせた、姿勢駆動のハイブリッド手法を提案し、スナッチ・アンド・ラン事象を検出します。システムは追跡された各人物に対して、YOLOベースの姿勢推定器を用いて身体のキーポイントを抽出し、加害者と被害者の組の間での手の速度、腕の伸展、近接度、相対運動を記述する運動学的および相互作用の特徴量を計算します。Random Forest（ランダムフォレスト）分類器はこれらの記述子に基づいて学習され、フレーム単位の予測を安定化させて誤報を減らすために、時間的ヒステリシス・フィルタが適用されます。本手法は、段階的に構築したデータセットと、インターネット上の動画から収集した無関係なテストセットの両方で評価し、異なるシーンおよびカメラ視点間での有望な汎化性能を示します。最後に、NVIDIA Jetson Nano上に完全なパイプラインを実装し、リアルタイム性能を報告することで、能動的なオンデバイス強盗検出の実現可能性を支持します。