分岐ベースのマルチモーダル融合を用いた Ambivalence/Hesitancy（AH）ビデオ認識チャレンジ第10回競技の解法

arXiv cs.CV / 2026/3/19

💬 オピニオンModels & Research

共有:

要点

本論文は、ABAW CVPR 2026 コンペティションにおける Ambivalence/Hesitancy のビデオ認識課題に対処するため、視覚・音声・テキストのモダリティ間のクロスモーダル衝突を明示的にモデリングする分岐ベースのマルチモーダル融合を提案する。
視覚特徴は Py-Feat によるアクションユニット（AUs）として、音声は Wav2Vec 2.0、テキストは BERT でエンコードされ、各モダリティは BiLSTM（双方向LSTM）と注意機構のプーリングによって処理され、共通の埋め込みを生成する。
融合モジュールは、モダリティ埋め込み間のペアごとの絶対差を用いて、A/H を特徴づけるモーダリティ間の不整合を捉える。
BAH データセット上で、本手法は検証セットにおいて Macro F1 = 0.6808 を達成し、ベースラインの 0.2827 を上回っている。
1,132本の動画を対象とした統計分析により、AUs の時間的変動が Ambivalence/Hesitancy の主要な視覚識別子であることが示された。

note

note

note

note

日経XTECH