野外環境下での頑健な多模態AU検出のための階層的粒度整合と状態空間モデリング

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AU検出における空間-時間的ヘテロ性と制約のないポーズに対処するため、階層的粒度整合と状態空間モデルに基づく多模態フレームワークを提案する。
視覚特徴には DINOv2、音声特徴には WavLM を活用し、従来の特徴抽出器を置換して表現の忠実度を高める。
Vision-Mamba アーキテクチャを導入して O(N) の線形時間の時間モデリングを実現し、非対称のクロスアテンション機構を用いてパラリンガスティックな音声手がかりと微妙な顔の動きを深く同期させる。
Aff-Wild2 データセットの実験は、既存のベースラインを大幅に上回り、最先端の性能を示した。特にこのフレームワークは第10回の Affective Behavior Analysis in-the-wild Competition の AU Detection トラックでトップランキングを獲得した。

野外環境での顔のアクション単位（AU）検出は、深刻な空間-時間的ヘテロ性、制約のない姿勢、および複雑な音声-視覚依存関係のため、依然として極めて困難である。近年の多模态アプローチは進展を見せているが、容量に制限のあるエンコーダと浅いフュージョン機構に依存し、細粒度の意味変化や超長期の時間文脈を捉えきれていない。これらのギャップを埋めるべく、本研究では階層的粒度整合と状態空間モデルに基づく新しい多模态フレームワークを提案する。具体的には、DINOv2とWavLMという強力な基盤モデルを活用し、視覚および音声の堅牢で高忠実度な表現を抽出して伝統的な特徴抽出器を効果的に置換する。極端な顔の変化を扱うため、我々の階層的粒度整合モジュールはグローバルな顔の意味論と局所の高活性パッチを動的に整合させる。さらに、従来の時系列畳み込みネットワークの受容野の制限を克服するべく Vision-Mamba アーキテクチャを導入する。この手法は O(N) の線形計算量で時系列モデリングを可能にし、超長距離のダイナミクスを性能低下なしに効果的に捉える。さらにパラリンガスティックな音声手がかりを微妙な視覚動作と深く同期させる新たな非対称クロスアテンション機構も導入されている。難易度の高い Aff-Wild2 データセットを用いた広範な実験により、我々の手法は従来のベースラインを大幅に上回り最先端の性能を達成した。特に本フレームワークは第10回の Affective Behavior Analysis in-the-wild Competition の AU 検出トラックで上位にランクインした。