分岐ベースのマルチモーダル融合を用いた Ambivalence/Hesitancy(AH)ビデオ認識チャレンジ 第10回競技の解法
arXiv cs.CV / 2026/3/19
💬 オピニオンModels & Research
要点
- 本論文は、ABAW CVPR 2026 コンペティションにおける Ambivalence/Hesitancy のビデオ認識課題に対処するため、視覚・音声・テキストのモダリティ間のクロスモーダル衝突を明示的にモデリングする分岐ベースのマルチモーダル融合を提案する。
- 視覚特徴は Py-Feat によるアクションユニット(AUs)として、音声は Wav2Vec 2.0、テキストは BERT でエンコードされ、各モダリティは BiLSTM(双方向LSTM)と注意機構のプーリングによって処理され、共通の埋め込みを生成する。
- 融合モジュールは、モダリティ埋め込み間のペアごとの絶対差を用いて、A/H を特徴づけるモーダリティ間の不整合を捉える。
- BAH データセット上で、本手法は検証セットにおいて Macro F1 = 0.6808 を達成し、ベースラインの 0.2827 を上回っている。
- 1,132本の動画を対象とした統計分析により、AUs の時間的変動が Ambivalence/Hesitancy の主要な視覚識別子であることが示された。



