Team LEYA 第10回 ABAW コンペティションにおけるマルチモーダル曖昧さ/躊躇認識アプローチ

arXiv cs.AI / 2026/3/16

📰 ニュースModels & Research

共有:

要点

本論文は、場面・顔・音声・テキストの情報を統合した動画レベルの曖昧さ/躊躇認識のマルチモーダル手法を提案する。
場面ダイナミクスには VideoMAE を、感情ベースの顔埋め込みを統計的プーリングで、音声には EmotionWav2Vec2.0 に Mamba 時系列エンコーダを組み合わせ、テキストにはファインチューニング済みの Transformer モデルを用いて、プロトタイプを拡張したマルチモーダル融合を行う。
BAH コーパスで、マルチモーダル融合は単一モーダルのベースラインを上回り、最良の融合モデルで平均 MF1 が 83.25%、プロトタイプ拡張モデルのアンサンブルを用いた最終テスト性能は 71.43% を達成した。
結果は、制約のない動画における正確な曖昧さ/躊拒認識のためには、複数の手掛かりを組み合わせ、堅牢な融合戦略を用いることの重要性を強調している。

Reddit r/MachineLearning

Reddit r/MachineLearning

Reddit r/LocalLLaMA

Reddit r/LocalLLaMA

Reddit r/MachineLearning