MAEPose:mmWaveビデオにおける人の姿勢推定のための自己教師あり時空間学習

arXiv cs.AI / 2026/5/4

💬 オピニオンModels & Research

要点

  • 本論文では、MAEPoseという手法を提案し、mmWaveのスペクトログラム動画に直接適用して人の姿勢推定を行うことで、事前抽出された表現に依存せずにレーダーの時空間情報を学習に活かすことを目指しています。
  • MAEPoseはラベルなしのレーダー動画で学習して運動に配慮した汎化表現を獲得し、その後ヒートマップデコーダにより複数フレームの姿勢予測を出力します。
  • 3つのデータセットで、leave-one-person-out交差検証と厳密な統計検定を用いた評価の結果、MAEPoseはMPJPEで最大22.1%の改善を示し(p<0.05)、既存の最先端ベースラインを一貫して上回りました。
  • バイスタンダー(通行人)による干渉があるゼロショット条件でも頑健性が保たれ、誤差増加は6.5%にとどまりました。またアブレーション研究により、事前学習とヒートマップデコーダの双方が重要であることが示されています。
  • モダリティ分析では、入力としてRange-Doppler動画を用いると、Range-Azimuth(またはその融合)よりも姿勢推定性能が良好で、かつ計算コストも低いことが明らかになっています。

Abstract

ミリ波(mmWave)レーダーは、RGBベースの人体姿勢推定に対して、よりプライバシーを保護しやすい代替手段を提供します。しかし、既存の手法は一般に、疎な点群やスペクトログラム画像のような事前抽出された中間表現に依存しており、レーダービデオストリームに自然に含まれる豊富な時空間情報はモデル学習のために捨てられてしまいます。一方で、このような信号処理はシステムの複雑性も高めます。さらに、既存の解決策は主にエンドツーエンドの教師あり手法として実施されており、ラベルなしの生ビデオストリームを活用して汎化表現を学習することは活用されていません。本研究では、mmWaveスペクトログラムビデオに直接動作する、マスク付き自己符号化(masked autoencoding)に基づく人体姿勢推定アプローチであるMAEPoseを提案します。MAEPoseは、ラベルなしのレーダービデオから、時空間の動きに着目した汎化表現を学習し、熱マップデコーダを用いて複数フレームにわたる姿勢推定の予測を行います。3つのデータセットに対して、厳密な統計的検定を伴う「1人を除外(leave-one-person-out)」の交差検証で評価します。MAEPoseは、MPJPEにおいてp<0.05の条件で最大22.1%まで、最先端のベースラインを一貫して上回り、さらに、周囲の傍観者によるゼロショット干渉下でも、誤差の増加がわずか6.5%にとどまり、高い精度を維持します。アブレーション研究により、事前学習と熱マップデコーダの両方が実質的に寄与していることが確認されます。また、モダリティ分析では、入力としてRange-Azimuthやそれらの融合よりもRange-Dopplerビデオを活用することで、計算コストが低いにもかかわらず、より良い姿勢推定性能が得られることが示されます。