要旨: 私たちは第10回 ABAW チャレンジに参加し、Hume-Vidmimic2 データセットの Emotional Mimicry Intensity (EMI) 推定トラックに焦点を当てました。このタスクは、6つの連続感情次元を予測することを目指します:称賛、楽しさ、決意、共感的痛み、興奮、そして喜び。
事前学習済み高レベル特徴の体系的なマルチモーダル探索を通じて、私たちの事前学習特徴設定の下では、直接的な特徴結合が、私たちが検証したより複雑な融合戦略を上回ったことを発見しました。
この経験的発見は、3つの中核原則に基づく体系的アプローチを設計する動機となりました: (i) 特徴レベルの結合を通じたモダリティ特有の属性の保持; (ii) 多目的最適化を通じた学習の安定性と指標の整合性の向上; (iii) VAD に触発された潜在的先行情報で音響表現を豊かにする。
私たちの最終的なフレームワークは、連結ベースのマルチモーダル融合、共有の6次元回帰ヘッド、MSE、ピアソン相関、および補助ブランチ監督を用いた多目的最適化、パラメータ安定化のための EMA、音響ブランチのための VAD に触発された潜在的先行情報を統合します。公式検証セットで、提案されたスキームは私たちの最高の平均ピアソン相関係数0.478567を達成しました。
第10回ABAWチャレンジ EMI推定トラックにおけるマルチモーダル感情回帰と多目的最適化およびVAD志向の音響モデリング
arXiv cs.AI / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Hume-Vidmimic2データセットを用いた第10回ABAWチャレンジのEMI推定トラックにおけるマルチモーダル感情回帰アプローチについて述べている。
- 提案手法は、事前学習済み特徴の下で、直接特徴結合がより複雑な融合戦略を上回ることを発見し、それが設計方針を導いた。
- 提案フレームワークは、結合ベースの融合、共有の6次元回帰ヘッド、マルチオブジェクティブ最適化(MSE、Pearson、補助監督)、EMA安定化、音響ブランチのVADに着想を得た潜在的事前分布を組み合わせている。
- 公式の検証セットにおける最高の平均Pearson相関係数は0.478567である。

