広告

プライバシー保護型ビデオ異常検知のための、モーションセマンティクス誘導正規化フロー

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体化された知覚(embodied perception)環境におけるプライバシー保護型ビデオ異常検知を扱い、個人の識別や顔の情報に該当するセンシティブ情報を除外したスケルトン/姿勢(pose)表現を用いる。
  • 先行するスケルトンベース手法では、モーション軌跡を単一の枠組みとしてモデル化しており、人の活動が離散的な意味プリミティブと細かな運動学(kinematics)を組み合わせて形成される階層構造が捉えられていないと主張する。
  • 提案手法であるMotion Semantics Guided Normalizing Flow(MSG-Flow)は、姿勢モーションを解釈可能なプリミティブへ離散化し、ベクトル量子化VAE(vector-quantized VAE)で階層的にモーションをモデル化し、その後オートレグレッシブ(autoregressive)Transformerで意味(semantic)レベルの時間的依存関係をモデル化する。
  • 詳細な姿勢の変化を維持し、モデル化するために、MSG-Flowはさらに、きめ細かな運動学モデリングのための条件付き正規化フロー(conditional normalizing flow)を用いる。
  • HR-ShanghaiTechおよびHR-UBnormalでの実験により、AUCスコア88.1%および75.8%を達成し、異常検知における階層的モーションセマンティクスの有効性を裏付けている。

要旨: 身体化された知覚システムが、インタラクティブなマルチメディアアプリケーションにおいてデジタルと物理の領域をますます橋渡しするようになってきたことで、物理環境における人間の行動を理解するためのプライバシー保護型アプローチの必要性が極めて重要になっています。動画の異常検出は、そのような身体化マルチメディアシステムにおける、インテリジェントな監視および法医学的分析のための重要な課題です。骨格ベースのアプローチは、アイデンティティや顔の特徴などの機微な視覚属性を捨て去り、人の姿勢表現という抽象化された情報を通じて物理世界の情報を処理することで、プライバシー保護を実現する代替手段として登場してきました。しかし、既存の骨格ベース手法は、離散的な意味プリミティブと細粒度の運動学的詳細から構成される人間の活動の階層的性質を捉えることができず、連続的な運動軌跡を単一の枠組みでモデル化することが主になっています。その結果、異常が異なる抽象化レベルで現れた場合に弁別性が低下します。そこで本研究では、骨格ベースのVADを階層的な運動セマンティクスとしてモデリングする Motion Semantics Guided Normalizing Flow (MSG-Flow) を提案します。これは、ベクトル量子化された変分オートエンコーダを用いて連続的な運動を解釈可能なプリミティブへ離散化し、意味レベルの時系列依存関係をモデル化する自己回帰型Transformerを用い、詳細レベルの姿勢のバリエーションを捉える条件付き正規化フローを用います。ベンチマーク(HR-ShanghaiTech & HR-UBnormal)に対する大規模な実験により、MSG-Flowがそれぞれ88.1%および75.8%のAUCで先端(SOTA)性能を達成することを示します。

広告