AI Navigate

衝突情報を考慮したマルチモーダル融合による曖昧性と躊躇の認識

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • 本論文は ConflictAwareAH を提案します。これは映像、音声、テキストの表現を、モダリティ間のペアワイズクロスモーダル衝突特徴を用いて融合する、曖昧性と躊躇認識のためのマルチモーダルフレームワークです。
  • モダリティ埋め込み間の双方向かつ要素ごとの絶対差を手掛かりとして用い、差異が大きい場合には曖昧性/躊躇を示し、差異が小さい場合には行動の一貫性を示します。
  • テキスト主導の後期融合とテキストのみの補助ヘッドを導入し、Macro F1 を約4.1ポイント向上させ、ネガティブクラスのアンカーとして機能します。
  • ABAW10 Ambivalence/Hesitancy Challenge の BAH データセットにおいて、ラベル付きテスト分割で Macro F1 が 0.694、プライベートリーダーボードで 0.715 を達成し、公開済みのマルチモーダルベースラインを 10 ポイント以上上回っています。
  • 手法は効率的に学習され、単一の GPU 上で 25 分未満で実行可能です。

要旨: 曖昧さと躊躇(A/H)は、異なるチャネルを通じて矛盾する信号を示す、微妙な情動状態である――言っていることと、顔や声が伝える別の話が相反している場合を指します。
この状態を自動的に認識することは臨床現場で価値があるが、機械にとっては難しい。なぜなら、重要な証拠は、言われていること、音の響き、そして顔が示すものとの \emph{不一致} の間に存在するからである。
本研究では、\textbf{ConflictAwareAH} を提示します。これはこの問題のために構築されたマルチモーダルフレームワークです。
3つの事前学習済みエンコーダが、ビデオ、オーディオ、テキストの表現を抽出します。
ペアワイズの対立特徴量――モダリティ埋め込みの要素ごとの絶対差――は、\emph{双方向}の手掛かりとして機能します。大きなクロスモーダル差は A/H を示唆し、小さな差は行動の一貫性を確認し、ネガティブクラスのアンカーとなります。
この対立認識設計は、テキスト優位のアプローチが抱える重要な制約を解決します。これらは A/H を過検出しがち(高い F1-AH)で、欠如を確認するのに苦労します。我々のマルチモーダルモデルは、テキストのみと比較して F1-NoAH を +4.6 ポイント改善し、クラス間の性能格差を半減します。
補完的な \emph{text-guided late fusion} 戦略は、推論時にテキストのみの補助ヘッドを全モデルと組み合わせ、Macro F1 を +4.1 増やします。
ABAW10 Ambivalence/Hesitancy Challenge の BAH データセットでは、本手法はラベル付きテスト分割で \textbf{0.694 Macro F1}、非公開リーダーボードで \textbf{0.715} を達成し、公開済みのマルチモーダルベースラインを 10 ポイント以上上回っています。すべて単一の GPU 上で、トレーニングは 25 分未満です。