骸骨からセマンティクスへ：公共安全のためのハイブリッドなエッジベース行動検出システムの設計とデプロイ

arXiv cs.CV / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、遅延とリソースが制約されるエッジ環境において、公共安全のためのリアルタイムかつプライバシーに配慮した行動検出を実運用する課題に取り組む。
骨格ベースのモーション解析（低オーバーヘッド、継続的な監視）と、意味理解およびゼロショット推論のための視覚言語モデルを組み合わせるハイブリッドなアーキテクチャを提案する。
新しい認識モデルを導入するのではなく、現実的なエッジ制約下における、モーション中心のパラダイムとセマンティック（意味）中心のパラダイムのシステムレベルでの比較に焦点を当てる。
GPU対応のエッジデバイス上でデモ実装を行い、アプローチの実用可能性を定量化するために、レイテンシ、リソース使用量、運用上のトレードオフを評価する。
結果は、複雑、またはこれまで見たことのない状況に対して、高速なモーションベース検出を選択的に補強し、高次のセマンティック推論を組み合わせるようなハイブリッド設計が有効であることを示唆している。

要旨: 輸送ハブ、中心市街地、イベント会場などの公共空間では、公衆の安全を支えるために、潜在的に暴力的な振る舞いを適時かつ確実に検出することが求められます。自動化された映像解析は大きく進展しているものの、特にエッジコンピューティング環境下では、レイテンシ、プライバシー、資源の制約のため、実運用への展開はなお困難です。本論文は、骨格ベースのモーション解析と、視覚-言語モデルによる意味的なシーン解釈を組み合わせる、ハイブリッドなエッジベースの行動検出システムの設計と、デモ機に基づく展開を提示します。骨格ベースの処理により、低い計算オーバーヘッドでプライバシーに配慮した継続的な監視が可能となり、一方で視覚-言語モデルは、状況に応じた理解と、複雑でこれまでに見たことのない状況に対するゼロショット推論能力を提供します。本研究の貢献は、新しい認識モデルの提案ではなく、現実的なエッジ制約のもとで両パラダイムをシステムレベルで比較することに焦点を当てています。システムはGPU対応のエッジデバイス上で実装され、デモ機に基づくセットアップを用いて、レイテンシ、資源使用量、運用上のトレードオフに関して評価します。結果は、モーション中心アプローチと意味中心アプローチの補完的な強みと限界を明らかにし、速い骨格ベース検出を、高レベルの意味推論によって選択的に拡張するハイブリッド・アーキテクチャを動機づけます。提示するシステムは、公衆安全用途におけるプライバシーに配慮したリアルタイム映像解析のための実践的な基盤を提供します。