第10回 ABAW コンペティションの Team RAS：マルチモーダル感情価と覚醒推定アプローチ

arXiv cs.CV / 2026/3/16

💬 オピニオンModels & Research

共有:

要点

本論文は、顔・行動・音声のモダリティを統合することで、実世界条件下における感情価と覚醒の推定を行うマルチモーダル手法を提案する。
顔ストリームは、GRADAベースのフレームレベル埋め込みと、顔のダイナミクスを捉えるためのTransformerベースの時系列回帰を用いる。
行動ストリームは Qwen3-VL-4B-Instruct を用いて実装され、音声ストリームはクロスモーダルフィルタリングを用いた WavLM-Large で実装され、Mamba がセグメント間の時間的ダイナミクスをモデリングする。
著者らは、Directed Cross-Modal Mixture-of-Experts Fusion と Reliability-Aware Audio-Visual Fusion の2つの融合戦略を比較し、ABAWプロトコルの下で Aff-Wild2 開発セットにおける一致相関係数（CCC）が0.658であることを報告している。

概要:
自然環境下（ITW: in-the-wild）における valence（価性）と arousal（覚醒）に関する連続的な感情認識は、外見の大きなばらつき、頭部姿勢、照明、遮蔽、および感情表現の個体特有のパターンのため、依然として困難な問題である。ITW における valence-arousal 推定のためのマルチモーダル手法を提示します。私たちの手法は、顔、行動、音声の3つの補完モダリティを組み合わせます。顔モダリティは GRADA ベースのフレームレベル埋め込みと Transformer ベースの時系列回帰に依存します。動画セグメントから行動関連情報を抽出するために Qwen3-VL-4B-Instruct を使用し、セグメント間の時系列ダイナミクスをモデル化するために Mamba を用います。音声モダリティは attention-statistics pooling を用いた WavLM-Large に依存し、信頼性の低いまたは非音声セグメントの影響を低減するクロスモーダルフィルタリング段階を含みます。モダリティを統合するために、2つの融合戦略を検討します。1つは adaptive weighting でモダリティ間の相互作用を学習する Directed Cross-Modal Mixture-of-Experts Fusion Strategy、もう1つはフレームレベルで視覚特徴を結合しつつ音声を補完的な文脈として用いる Reliability-Aware Audio-Visual Fusion Strategy です。結果は Aff-Wild2 データセット上で、第10回 Affective Behavior Analysis in-the-Wild (ABAW) チャレンジのプロトコルに従って報告されます。実験は、提案されたマルチモーダル融合戦略が Aff-Wild2 開発セットで Concordance Correlation Coefficient (CCC) が 0.658 になることを示しています。

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

note

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

note

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

第10回 ABAW コンペティションの Team RAS：マルチモーダル感情価と覚醒推定アプローチ

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも