要旨: 歩行認識は、ユーザーの協力を必要とせずに距離のある環境で個人を同定するための、強力なバイオメトリクス技術として登場してきた。既存の多くの手法は主としてRGBに由来するモダリティに焦点を当てているが、現実世界の状況で必要となるマルチモーダルな協調やクロスモーダルな検索には十分に対応できていない。これらの課題を克服するために、我々はMMGaitを提案する。MMGaitは、RGBカメラ、深度カメラ、赤外カメラ、LiDARスキャナ、そして4Dレーダーシステムを含む5種類の異種センサからのデータを統合した包括的なマルチモーダル歩行ベンチマークである。MMGaitは12のモダリティと、725人の被験者からなる334,060シーケンスを含み、幾何、フォトメトリック、およびモーションの各領域にわたる体系的な探索を可能にする。MMGaitに基づいて、モダリティの頑健性と補完性を分析するために、単一モダリティ、クロスモダリティ、およびマルチモーダルの各パラダイムに関する大規模な評価を行う。さらに、上記の3つの歩行認識パラダイムを1つのモデルの中で統一することを目的とした新しいタスク「Omni Multi-Modal Gait Recognition(オムニ・マルチモーダル歩行認識)」を導入する。また、多様なモダリティにわたって共有埋め込み空間を学習し、期待できる認識性能を達成するシンプルかつ強力なベースライン「OmniGait」も提案する。MMGaitベンチマーク、コードベース、および事前学習済みチェックポイントは、https://github.com/BNU-IVC/MMGait で公開されている。
MMGait:マルチモーダル歩容認識に向けて
arXiv cs.CV / 2026/4/20
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、RGBのみのアプローチを超えて実世界の状況での性能向上を目指すマルチモーダル歩容認識ベンチマーク「MMGait」を提案している。
- MMGaitは、RGB、深度、赤外線、LiDAR、4Dレーダーの5種類の異種センサーからデータを統合し、12モダリティを334,060シーケンス・725被験者分として提供する。
- 著者らは、単一モダリティ・クロスモダリティ・マルチモーダルの歩容認識を評価し、それぞれのモダリティの頑健性と補完関係を分析している。
- さらに、3つの認識パラダイムを1つのモデルで統一する新しいタスク「Omni Multi-Modal Gait Recognition」を提案している。
- 共有埋め込み空間を多様なモダリティ間で学習するベースライン「OmniGait」も示され、公開されたベンチマークとともに研究を支援する。


