要旨: 人間の活動認識は、さまざまな新たなアプリケーションの基盤として機能している。近年、研究者らは複数ソースのセンサを用いた協調センシングにより、複雑かつ動的な人間の活動を捉えることを試みている。だが、多モーダルの人間活動センシングは一般に、モダリティ間で非常に不均一なデータが存在し、かつラベルが不足しているため、既存の手法と現実のニーズとの間にアプリケーション上のギャップが生じる。本論文では、限られたラベル付きデータで効果的な多モーダル認識を実現する、人間活動認識のための一般化されたコントラスト学習フレームワークであるCLMMを提案する。
CLMMは新しい2段階の学習戦略を採用する。第1段階では、CLMMはCNN-DiffTransformerエンコーダを用いて、ローカル特徴とグローバル特徴を抽出することで、モダリティ横断の共通情報を捉える。同時に、ハードポジティブサンプルの重み付けアルゴリズムによって勾配伝播を強化し、共有学習をより確実にする。第2段階では、品質ガイド付き注意機構と双方向ゲート付きユニットを組み合わせたデュアルブランチ構造によりモダリティ固有の情報を捉える。さらに、一次-補助の協調学習戦略によって、共有情報とモダリティ固有情報の両方を融合する。3つの公開データセットに対する実験結果は、CLMMが認識精度と収束性能の両面において、最先端のベースラインを大幅に改善することを示している。
ラベル付きデータが限られた状況での対照学習によるマルチモーダル人間活動認識
arXiv cs.LG / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、モダリティ間のデータが異質であり、さらにラベル付きデータが不足しているマルチモーダル人間活動認識の課題に対し、ギャップを埋める手法としてCLMMを提案しています。
- CLMMは2段階の学習パイプラインを導入し、まずCNN-DiffTransformerエンコーダとハードポジティブサンプルの重み付けにより、モダリティ間の共有表現を学習します。
- 次に、第2段階では、品質ガイド付きアテンションと双方向ゲート付きユニットを用いたデュアルブランチ構成でモダリティ固有の特徴を学習し、共有情報と固有情報を主–補助の共同学習で統合します。
- 3つの公開データセットでの実験により、CLMMは認識精度だけでなく収束性能の面でも既存の最先端ベースラインを改善することが示されています。



