AI Navigate

第10回 ABAW コンペティションの Team RAS:マルチモーダル感情価と覚醒推定アプローチ

arXiv cs.CV / 2026/3/16

💬 オピニオンModels & Research

要点

  • 本論文は、顔・行動・音声のモダリティを統合することで、実世界条件下における感情価と覚醒の推定を行うマルチモーダル手法を提案する。
  • 顔ストリームは、GRADAベースのフレームレベル埋め込みと、顔のダイナミクスを捉えるためのTransformerベースの時系列回帰を用いる。
  • 行動ストリームは Qwen3-VL-4B-Instruct を用いて実装され、音声ストリームはクロスモーダルフィルタリングを用いた WavLM-Large で実装され、Mamba がセグメント間の時間的ダイナミクスをモデリングする。
  • 著者らは、Directed Cross-Modal Mixture-of-Experts Fusion と Reliability-Aware Audio-Visual Fusion の2つの融合戦略を比較し、ABAWプロトコルの下で Aff-Wild2 開発セットにおける一致相関係数(CCC)が0.658であることを報告している。

概要:
自然環境下(ITW: in-the-wild)における valence(価性)と arousal(覚醒)に関する連続的な感情認識は、外見の大きなばらつき、頭部姿勢、照明、遮蔽、および感情表現の個体特有のパターンのため、依然として困難な問題である。ITW における valence-arousal 推定のためのマルチモーダル手法を提示します。私たちの手法は、顔、行動、音声の3つの補完モダリティを組み合わせます。顔モダリティは GRADA ベースのフレームレベル埋め込みと Transformer ベースの時系列回帰に依存します。動画セグメントから行動関連情報を抽出するために Qwen3-VL-4B-Instruct を使用し、セグメント間の時系列ダイナミクスをモデル化するために Mamba を用います。音声モダリティは attention-statistics pooling を用いた WavLM-Large に依存し、信頼性の低いまたは非音声セグメントの影響を低減するクロスモーダルフィルタリング段階を含みます。モダリティを統合するために、2つの融合戦略を検討します。1つは adaptive weighting でモダリティ間の相互作用を学習する Directed Cross-Modal Mixture-of-Experts Fusion Strategy、もう1つはフレームレベルで視覚特徴を結合しつつ音声を補完的な文脈として用いる Reliability-Aware Audio-Visual Fusion Strategy です。結果は Aff-Wild2 データセット上で、第10回 Affective Behavior Analysis in-the-Wild (ABAW) チャレンジのプロトコルに従って報告されます。実験は、提案されたマルチモーダル融合戦略が Aff-Wild2 開発セットで Concordance Correlation Coefficient (CCC) が 0.658 になることを示しています。