B-MoE:身体部位に着目したMixture-of-Experts「すべての部位が重要」アプローチによるマイクロ動作認識

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、視線やうなずきのような微細で短く、非常に曖昧な動作のマイクロ動作認識を改善することを目的とした、身体部位に着目したMixture-of-ExpertsフレームワークであるB-MoEを提案する。
  • B-MoEは、異なる身体領域(頭部、胴体、上肢、下肢)に対して別々のエキスパートを割り当て、領域間の関係を学習し、各動作に対して情報量の多い領域を動的に選択するためのクロスアテンションによるルーティング機構を用いる。
  • 長距離の文脈と微細な局所動作の両方を捉えるために、領域固有の意味手がかりとグローバルな動きの特徴を融合するデュアルストリーム設計の軽量なMacro-Micro Motion Encoder(M3E)を活用する。
  • MA-52、SocialGesture、MPII-GroupInteractionでの実験により、一貫した最先端の性能向上が報告され、特に曖昧で振幅の小さいクラスで顕著である。

要旨: まばたき、うなずき、姿勢の小さな変化のような、短時間で振幅が小さい微小動作(micro-actions)は豊かな社会的意味を持ちますが、その微細さ、短い継続時間、そしてクラス間の曖昧さの高さゆえに、現在の動作認識モデルでは認識することが困難です。本論文では、人間の動作の構造化された性質を明示的にモデル化するための、Body-part-aware Mixture-of-Experts(B-MoE)フレームワークを提案します。B-MoEでは、各エキスパートが身体領域のそれぞれ異なる部位(頭部、体幹、上肢、下肢)に特化し、長距離の文脈構造と、きめ細かな局所動作を捉える軽量なMacro-Micro Motion Encoder(M3E)に基づいています。クロスアテンションのルーティング機構により領域間の関係が学習され、各微小動作に対して最も有益な領域が動的に選択されます。B-MoEはデュアルストリームのエンコーダを用い、領域ごとの意味手がかりとグローバルな動作特徴を融合することで、微小動作を特徴づける空間的に局所化された手がかりと、時間的に微細な変化を同時に捉えます。3つの困難なベンチマーク(MA-52、SocialGesture、MPII-GroupInteraction)での実験では、従来の最先端に対して一貫した性能向上が示され、曖昧なクラス、十分に表現されていないクラス、そして低振幅のクラスで特に改善が得られます。