プライバシーを機能設計（Privacy-by-Functional-design）で担保するための、変分エンコーダ—マルチデコーダ（VE-MD）による集団（Group）感情認識

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、アイデンティティや個人ごとの感情推定のような“人に紐づく出力”を避けることでプライバシーリスクを低減することを目的とした、集団感情認識（GER）のためのVE-MD（Variational Encoder–Multi-Decoder）を提案する。
厳密な匿名化の代わりに、VE-MDは、個人ではなく集団レベルの情動（affect）のみを予測できるよう学習を制約し、内部の構造的デコーディング（身体および顔の構造）を伴う形で共有潜在表現を共同で学習する。
構造的デコーディングの2つのアプローチを評価する。すなわち、トランスフォーマに基づくPersonQueryデコーダと、密なヒートマップデコーダである。ヒートマップ手法の方が、可変の集団サイズにより自然に対応できる。
6つのin-the-wild（実世界）データセットにまたがる実験により、構造的な教師信号が表現学習を改善することが示される。さらに重要な行動（振る舞い）の差として、GERは相互作用に関連する構造的手がかりを保持することで有利になる一方、IERは構造的表現がノイズ除去のボトルネックとして働くことで改善し得ることが明らかになっている。
本手法は、GERベンチマーク（例：GAF-3.0で最大90.06%、音声融合を伴うVGAFで最大82.25%）において最先端の結果を報告し、さらにマルチモーダル設定下でいくつかの個別感情ベンチマークでも競争力〜強力な性能を示す。

Abstract

集団感情認識（GER）は、教室、群衆、公共イベントなどの社会的環境における集団的な情動を推定することを目的とする。既存の多くのアプローチは、切り出した顔、人物追跡、あるいは人物ごとの特徴抽出など、明示的な個人レベルの処理に依存しており、その結果、分析パイプラインは人物中心となり、また集団レベルの理解のみが必要であるにもかかわらず、展開シナリオではプライバシー上の懸念が生じる。本研究は、プライバシーに配慮した機能設計のもとで集団感情認識を行うための変分エンコーダ・マルチデコーダフレームワークであるVE-MDを提案する。VE-MDは、形式的な匿名化や暗号学的なプライバシー保証を提供するのではなく、モデルに対して明示的な個人監視を行わないように設計されている。すなわち、同一人物の認識や人物ごとの感情出力を行うことなく、集団の集約されたレベルの情動のみを予測するようにモデルを制約する。VE-MDは、感情分類と、身体および顔の構造表現の内部予測のために共同最適化された共有潜在表現を学習する。調べた構造デコードの戦略は2つである。1つはトランスフォーマベースのPersonQueryデコーダ、もう1つは変化する集団サイズに自然に対応できる密なヒートマップデコーダである。2つのGERおよび4つの個人感情認識（IER）ベンチマークを含む6つのin-the-wildデータセットでの実験により、構造的な教師信号が表現学習を一貫して改善することが示される。さらに重要なのは、GERとIERの間に明確な違いがあることが結果から分かる点である。潜在空間のみを最適化しても、GERではしばしば不十分である。というのも、相互作用に関連する手がかりが減衰しやすいからである。一方で、明示的な構造出力を保持することは、集団的な情動の推論を改善する。対照的に、投影された構造表現は、IERに対して効果的なデノイズ・ボトルネックとして機能しているように見える。VE-MDは、GAF-3.0で最先端の性能を達成（最大90.06%）し、VGAFでは（音声とのマルチモーダル・フュージョンにより82.25%）となった。これらの結果は、個人の事前特徴抽出に依存せずに、集団レベルの情動モデル化において相互作用関連の構造情報を保持することが特に有益であることを示している。音声モダリティを用いたマルチモーダル・フュージョンによるIERデータセットでは、VE-MDはSamSemoでSOTAを上回る（77.9%、テキストのモダリティを追加）一方で、MER-MULTI（63.8%）、DFEW（70.7%）、EngageNet（69.0%）では競争力のある性能を達成した。