ブレンデッドな感情が交わる基盤モデル埋め込み：BLEMOREチャレンジに向けたマルチモーダル融合アプローチ

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、BLEMOREチャレンジ（FG 2026）に向けて、ブレンデッドな感情認識に加えて相対的な顕著性（サリエンシー）の予測を対象としたマルチモーダル融合システムを述べる。6つのエンコーダ・ファミリに対してレイト（後段）確率融合を行う。

概要: 私たちは、FG 2026におけるBLEMOREチャレンジのための「相対的な顕著性（salience）予測を伴う、ブレンドされた感情認識」のシステムを提示します。提案手法は、後段での確率融合（late probability fusion）によって6つのエンコーダ系統を組み合わせます。具体的には、ソフトラベルKL学習で適応したS4D-ViTMoEの顔エンコーダ、凍結した層選択型のWav2Vec2音声特徴、微調整したボディランゲージエンコーダ（TimeSformer、VideoMAE）に加えて、そして感情認識において初めて—Gemini Embedding 2.0を用います。動画埋め込みが、入力のみ2秒から競争力のあるプレゼンス精度を生み出します（ACCP = 0.320）。実験からは3つの主要な知見が得られました。第一に、凍結したWav2Vec2から韻律（prosody）符号化層（6〜12）を選択することが、エンドツーエンドの微調整を上回ります（スコア0.207 vs. 0.161）。これは、BLEMORE音声が非言語的であるため、音素（phonetic）層が無関係だからです。第二に、事後処理における顕著性閾値 $eta$ はフォールド間で0.05から0.43まで変動し、パーソナライズされた表現スタイルが主要なボトルネックであることを示します。第三に、タスク適応型のエンコーダは、汎用ベースラインに対してアンサンブルの重みの624をまとめて受け取ります。12エンコーダのシステムはテストセットでスコアScore = 0.279（ACCP = 0.391、ACCS = 0.168）を達成し、6位でした。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ブレンデッドな感情が交わる基盤モデル埋め込み：BLEMOREチャレンジに向けたマルチモーダル融合アプローチ

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer