認知的評価予測による快感情の誘発をモデリングするマルチモーダル融合

arXiv cs.AI / 2026/4/28

📰 ニュースModels & Research

要点

  • この論文は、映像コンテンツが視聴者の認知的解釈(評価)にどう影響し、「快感」のような特定の情動体験をどう生み出すのかを扱い、マルチモーダル情動推定における重要なギャップを埋めようとしています。
  • 視聴中に誘発される快感を、認知的評価変数の推定によって予測する新しい計算モデルを提案し、「ポジティブ感情」と「快感」が意味的に異なる点を埋めることを目指しています。
  • ノイズや不整合を含む人手ラベル、快感に特化したデータセット不足、既存のブラックボックス型融合の解釈困難といった課題に対処します。
  • トランスフォーマーに基づくマルチモーダル特徴抽出と注意機構、さらに解釈可能な融合設計により、快感に関連するモーダル間・モーダル内のダイナミクスを捉えることを狙っています。
  • 実験では快感レベルの予測におけるピーク精度0.6624を報告しており、情動に基づくレコメンドや、より説明可能なメディア制作への応用可能性が示唆されています。

Abstract

マルチモーダルな感情計算(affective computing)は、ユーザーが生成したソーシャルメディアのコンテンツを解析して感情状態を予測する。しかし、視覚コンテンツが認知的な解釈の形成にどのように影響し、快楽のような特定の情動体験をどのように喚起するのかを理解するうえでの重要なギャップが、なお残っている。本研究では、認知的評価変数を介して、動画が誘発する快楽を推定するための新規の計算モデルを提案する。提案モデルは4つの課題に対処する:(1)ノイズがあり一貫性のない人間によるラベル,(2)「ポジティブな感情」と「快楽」の間に存在する意味ギャップ,(3)快楽に特化したデータセットの不足,(4)既存のブラックボックス型融合手法の解釈可能性の限界である。提案手法は、認知的評価理論とファジィモデルを用いた、革新的な枠組みの中で、データ駆動型の方法と認知理論駆動型の方法を統合する。モデルは、トランスフォーマーベースのアーキテクチャと注意機構を用いて、快楽に関連するモーダル間およびモーダル内のダイナミクスの双方を捉えるための、きめ細かなマルチモーダル特徴抽出と、解釈可能な融合を行う。これにより、基盤となる評価変数を予測できるため、意味ギャップを橋渡しするとともに、従来の統計的関連にとどまらない説明可能性を高める。実験結果は、提案手法が動画誘発の快楽の検出に有効であることを裏づけており、快楽レベルの予測において最高精度0.6624を達成した。これらの知見は、感情的コンテンツのレコメンデーション、インテリジェントなメディア生成、そしてデジタルメディアが人間の感情にどのように影響するのかに関する理解の前進といった、有望な示唆を提示する。