深層残差ネットワークとマルチブランチ特徴融合による歩行認識

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、視点変化・衣服の変更・携帯状況などの共変量による干渉に対処しつつ、監視・セキュリティ用途での高精度な生体認証(歩行認識)を実現する枠組みを提案している。
  • HRNetによる頑健な骨格キーポイント推定を行い、そのポーズ系列から「体格(プロポーション)」「歩行速度」「骨格の動き」の3つの補完的な特徴ブランチを抽出する。
  • 深層特徴抽出ではResNet-50(50層)を基盤とすることで、運動データから階層的に豊かで弁別性の高い表現を学習する。
  • 異種の特徴ストリームを統合するために、チャネル方向の注意機構に着想を得たMulti-Branch Feature Fusion(MFF)モジュールを設計し、学習された活性化パラメータで各ブランチの寄与度を動的に配分する。
  • CASIA-Bのクロスビュー・複数条件ベンチマークで、通常歩行におけるRank-1精度94.52%を報告し、コート着用条件では骨格ベース手法として最良の認識性能を示した。

Abstract

歩容認識は、監視およびセキュリティ用途のための説得力のあるバイオメトリクス手法として注目を集めており、不介入性、変装への耐性、遠距離での識別能力といった固有の利点を提供します。しかし、従来のアプローチは、人間の移動(ロコモーション)の中に埋め込まれた豊富なバイオメトリクス手掛かりを、共変動による干渉—特に視点の変化、衣服の変更、携行状態—の下で、包括的に捉えて活用することに苦戦しています。本論文では、深い残差学習に基づくマルチブランチ構造により、歩容ダイナミクスと身体形状の特徴を深く抽出し、相乗的に融合する高精度な歩容認識フレームワークを提案します。具体的には、まずHigh-Resolution Network(HRNet)を用いて堅牢な骨格キーポイント推定を行い、低解像度入力であっても微細な空間情報を保持します。次に、抽出したポーズ系列から、身体のプロポーション、歩行速度、骨格の運動の3つの相補的な特徴ブランチを構築します。深い特徴抽出モジュール内で50層のResidual Network(ResNet-50)バックボーンを活用し、階層的に豊かで識別力の高い表現を捉えます。異種な特徴ストリームを効果的に統合するために、チャネル方向の注意(channel-wise attention)メカニズムに着想を得たMulti-Branch Feature Fusion(MFF)モジュールを設計し、学習された活性化パラメータを通じてブランチ間で寄与度の重みを動的に配分します。クロスビューのマルチコンディションCASIA-Bベンチマークでの大規模な実験により、提案手法は通常歩行でRank-1精度94.52 %を達成し、コート着用条件においては骨格ベース手法の中で最良の認識性能を示すことを確認しました。