MMGait：マルチモーダル歩容認識に向けて

arXiv cs.CV / 2026/4/20

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、RGBのみのアプローチを超えて実世界の状況での性能向上を目指すマルチモーダル歩容認識ベンチマーク「MMGait」を提案している。
MMGaitは、RGB、深度、赤外線、LiDAR、4Dレーダーの5種類の異種センサーからデータを統合し、12モダリティを334,060シーケンス・725被験者分として提供する。
著者らは、単一モダリティ・クロスモダリティ・マルチモーダルの歩容認識を評価し、それぞれのモダリティの頑健性と補完関係を分析している。
さらに、3つの認識パラダイムを1つのモデルで統一する新しいタスク「Omni Multi-Modal Gait Recognition」を提案している。
共有埋め込み空間を多様なモダリティ間で学習するベースライン「OmniGait」も示され、公開されたベンチマークとともに研究を支援する。

要旨: 歩行認識は、ユーザーの協力を必要とせずに距離のある環境で個人を同定するための、強力なバイオメトリクス技術として登場してきた。既存の多くの手法は主としてRGBに由来するモダリティに焦点を当てているが、現実世界の状況で必要となるマルチモーダルな協調やクロスモーダルな検索には十分に対応できていない。これらの課題を克服するために、我々はMMGaitを提案する。MMGaitは、RGBカメラ、深度カメラ、赤外カメラ、LiDARスキャナ、そして4Dレーダーシステムを含む5種類の異種センサからのデータを統合した包括的なマルチモーダル歩行ベンチマークである。MMGaitは12のモダリティと、725人の被験者からなる334,060シーケンスを含み、幾何、フォトメトリック、およびモーションの各領域にわたる体系的な探索を可能にする。MMGaitに基づいて、モダリティの頑健性と補完性を分析するために、単一モダリティ、クロスモダリティ、およびマルチモーダルの各パラダイムに関する大規模な評価を行う。さらに、上記の3つの歩行認識パラダイムを1つのモデルの中で統一することを目的とした新しいタスク「Omni Multi-Modal Gait Recognition（オムニ・マルチモーダル歩行認識）」を導入する。また、多様なモダリティにわたって共有埋め込み空間を学習し、期待できる認識性能を達成するシンプルかつ強力なベースライン「OmniGait」も提案する。MMGaitベンチマーク、コードベース、および事前学習済みチェックポイントは、https://github.com/BNU-IVC/MMGait で公開されている。

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

Dev.to

MMGait：マルチモーダル歩容認識に向けて

要点

関連記事

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

ローカルLLM入門ガイド（Mac - Appleシリコン）

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer