SBF:ビデオベースの人間の行動認識のための骨格を拡張する効果的な表現

arXiv cs.CV / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、深度、身体の輪郭、人と物体の相互作用が重要となるシーンにおいて、2D骨格をビデオベースの人間の行動認識に用いることの限界を扱う。
  • 人体の各関節におけるスケール/深度の手がかり、人体の輪郭マップ、そして光学フローから導出した相互作用マップを組み合わせた、拡張表現 Scale-Body-Flow(SBF)を提案する。
  • SBFを生成するために、著者らは既存の骨格および光学フロー信号からの教師信号を用いて学習されるセグメンテーションネットワーク SFSNet を導入し、追加のアノテーションを必要としない。
  • 複数のデータセットでの実験により、SBF+SFSNet のパイプラインが、骨格のみの最先端手法と比べてコンパクトさや効率を同程度に保ちながら、行動認識精度を向上させることが示される。

Abstract

多くの現代的な、ビデオに基づく人間行動認識(HAR)のアプローチでは、予測パイプラインにおける中間表現として2Dスケルトンを用いています。全体としては有望な結果が得られているものの、これらのアプローチは多くの一般的な場面において依然として苦戦しています。主な理由は、スケルトンが、関節の深さに関する行動に関連する重要な情報、人の身体の輪郭、そして人と対象物の相互作用を捉えられていないためです。これに対処するため、HARのパイプラインにおいて、行動に関連する情報を捉える表現をスケルトンに補強する効果的な手法を提案します。提案する表現はScale-Body-Flow(SBF)と呼ばれ、3つの明確な構成要素から成ります。すなわち、各関節のスケール(したがって深さ情報)によって与えられるスケールマップのボリューム、人の被験者を輪郭づけるボディマップ、そしてピクセル単位の光学フロー値によって示される人と対象物の相互作用を表すフローマップです。SBFを予測するために、さらに、既存のスケルトン抽出以外に追加のアノテーション負荷をかけることなく、スケルトンと光学フローによって教師あり学習される新しいセグメンテーションネットワークであるSFSNetを提案します。異なる複数のデータセットにわたる大規模な実験により、SBFとSFSNetに基づく本パイプラインが、最先端のスケルトンのみのアプローチと比較して、同程度のコンパクトさと効率を保ちながら、HARの精度を大幅に向上させることを示します。