ブレンデッドな感情が交わる基盤モデル埋め込み:BLEMOREチャレンジに向けたマルチモーダル融合アプローチ

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、BLEMOREチャレンジ(FG 2026)に向けて、ブレンデッドな感情認識に加えて相対的な顕著性(サリエンシー)の予測を対象としたマルチモーダル融合システムを述べる。6つのエンコーダ・ファミリに対してレイト(後段)確率融合を行う。

概要: 私たちは、FG 2026におけるBLEMOREチャレンジのための「相対的な顕著性(salience)予測を伴う、ブレンドされた感情認識」のシステムを提示します。提案手法は、後段での確率融合(late probability fusion)によって6つのエンコーダ系統を組み合わせます。具体的には、ソフトラベルKL学習で適応したS4D-ViTMoEの顔エンコーダ、凍結した層選択型のWav2Vec2音声特徴、微調整したボディランゲージエンコーダ(TimeSformer、VideoMAE)に加えて、そして感情認識において初めて—Gemini Embedding 2.0を用います。動画埋め込みが、入力のみ2秒から競争力のあるプレゼンス精度を生み出します(ACCP = 0.320)。実験からは3つの主要な知見が得られました。第一に、凍結したWav2Vec2から韻律(prosody)符号化層(6〜12)を選択することが、エンドツーエンドの微調整を上回ります(スコア0.207 vs. 0.161)。これは、BLEMORE音声が非言語的であるため、音素(phonetic)層が無関係だからです。第二に、事後処理における顕著性閾値etaはフォールド間で0.05から0.43まで変動し、パーソナライズされた表現スタイルが主要なボトルネックであることを示します。第三に、タスク適応型のエンコーダは、汎用ベースラインに対してアンサンブルの重みの624をまとめて受け取ります。12エンコーダのシステムはテストセットでスコアScore = 0.279(ACCP = 0.391、ACCS = 0.168)を達成し、6位でした。