デュアルステージ特徴融合を用いた人間の活動認識のマルチレベルニューラルネットワーク

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、人間の活動認識(HAR)向けに2段階のニューラルネットワーク枠組みを提案し、中間融合と後期融合の両方を行うデュアルステージ特徴融合を採用しています。
  • 15種類のCNN/LSTM/ハイブリッド構成について、後期融合のみの場合と後期融合に中間融合を加えた場合を比較し、構造と融合設計が性能に与える影響を検証しています。
  • 2つの公開ベンチマークデータセットでの実験では、中間融合と後期融合の両方を用いる構成が後期融合のみより高い精度を示したと報告されています。
  • 最適構成はベースラインモデルも上回り、本枠組みのHARに対する有効性が裏付けられています。

要旨: 人間の活動認識(HAR)とは、センサーから収集したデータを用いて人間の行動や活動を特定するプロセスを指します。畳み込みニューラルネットワーク(CNN)、長短期記憶(LSTM)ネットワーク、畳み込みLSTM、ならびにそれらのハイブリッドな組み合わせといったニューラルネットワークは、さまざまな研究分野において優れた性能を示してきました。HARのための多層の個別モデル、あるいはハイブリッドモデルを開発するには、複数のネットワークを戦略的に統合し、それぞれの補完的な強みを活かすことが重要になります。これらの構成要素の構造的な配置は、全体の性能に影響を与える重要な要因です。本研究では、デュアルステージの特徴融合を備えた2レベルのネットワークアーキテクチャに関する新規フレームワークを検討します。具体的には、最初のネットワークレベルの出力を結合する「後期融合」と、最初および2番目のレベルの両方からの特徴を統合する「中間融合」です。最適な構成を特定するために、CNN、LSTM、畳み込みLSTMの15種類の異なるネットワークアーキテクチャを評価し、後期融合に加えて、中間融合の有無も組み込みました。2つの公開ベンチマークデータセットでの実験評価の結果、後期融合と中間融合の両方を取り入れたアーキテクチャは、後期融合のみを用いたものより高い精度を達成することが示されました。さらに、最適な構成はベースラインモデルを上回り、そのHARに対する有効性が検証されました。