視覚ベースの動的感情モデリングのための、認知に着想を得たデュアルストリーム意味強調

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、脳に着想を得た意味処理および文脈処理のメカニズムを明示的に取り入れることで、視覚ベースの動的感情モデリングを改善するための認知に着想を得たデュアルストリームモデル(DuSE)を提案する。
  • DuSEは2つの構成要素から成る:言語的意味論と時間的な顔のダイナミクスを整合させることで認知的プライミングを模倣する階層型時間プロンプトクラスタ(HTPC)と、感覚的手がかりを学習済みの概念知識と統合する潜在意味感情アグリゲータ(LSEA)である。
  • 本手法は、既存のアプローチがしばしば感情知覚や認知理論を無視しているという限界に対処することで、動的顔表情認識(DFER)を強化することを目的としている。
  • 報告によれば、手強い「in-the-wild」ベンチマークでの実験により、DuSEは従来手法に比べて解釈可能性が向上し、かつ最先端の性能が検証されている。

Abstract

人間の脳は、顔の表情だけを孤立して処理することによって感情知覚を構築するのではなく、感覚入力を意味的・文脈的知識と動的かつ階層的に統合することで構築している。しかし、既存の視覚ベースの動的感情モデリング手法は、しばしば感情知覚や認知理論を軽視している。このギャップを埋め、機械と人間の感情知覚の双方をつなぐために、認知に着想を得たDual-stream Semantic Enhancement(DuSE)を提案する。我々のモデルは、デュアルストリームの認知アーキテクチャを具体化する。第1のストリームであるHierarchical Temporal Prompt Cluster(HTPC)は、認知的プライミング効果を実装する。これは、言語的手がかりが神経経路を事前に感作する仕組みをシミュレートし、テキストの意味論を顔のダイナミクスにおける細粒度の時間的特徴へと整合させることで、入ってくる視覚刺激の処理を変調する。第2のストリームであるLatent Semantic Emotion Aggregator(LSEA)は、概念的行為理論で説明されるメカニズムに類似した、知識統合プロセスを計算論的にモデル化する。感覚入力を集約し、それを学習した概念知識と統合して、首尾一貫した感情体験を構築する際における海馬とデフォルト・モード・ネットワークの役割を反映する。これらの神経認知メカニズムを明示的にモデル化することで、DuSEは動的顔表情認識(DFER)に対して、より神経学的に妥当で、頑健な枠組みを提供する。in-the-wild の難易度の高いベンチマークに対する大規模な実験により、認知中心の本手法の有効性が検証される。すなわち、感情処理における脳の戦略を模倣することにより、最先端の性能が得られるだけでなく、モデルの解釈可能性も向上することが示される。