GAViD:動画からの文脈対応型グループ感情認識のための大規模マルチモーダルデータセット

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文では、実世界の注釈付きデータの不足に対処するため、文脈対応型のグループ感情認識を目的とした大規模マルチモーダルデータセット「GAViD」を提案します。
  • GAViDは5,091本の動画クリップからなり、動画・音声・文脈情報のマルチモーダル入力と、三値のバレンスおよび離散的な感情ラベルによる注釈を含みます。
  • データセットには、VideoGPTで生成した文脈メタデータと、人手で付与した行動キューを追加し、文脈や行動のばらつきをより捉えるようにしています。
  • 著者らは文脈対応型のマルチモーダル認識ネットワーク「CAGNet」を提案し、GAViDでテスト精度63.20%を達成しており、最先端性能に匹敵します。
  • データセットとコードは、提示されたGitHubリポジトリを通じて公開され、今後の研究や追試に利用できます。

要旨: 現実世界のソーシャルシステムにおける情動のダイナミクスを理解することは、複雑な環境下での人間同士の相互作用をモデル化し、解析するための基礎である。群の情動は、人間同士の相互に絡み合った相互作用、文脈的な影響、そして行動の手がかりによって生じるため、その定量的なモデリングは計算社会システムにおける難しい課題となる。しかし、現場(in-the-wild)シナリオにおける群の情動の計算モデリングは、大規模な注釈付きデータセットが限られていること、ならびに文脈や行動の多様性によって形作られるマルチモーダルな社会的相互作用という本質的な複雑さのために、依然として困難である。さらに、マルチモーダルおよび文脈情報が注釈された包括的なデータセットの欠如が、この分野の進展をさらに制限している。そこで本研究では、マルチモーダルデータ(動画、音声、文脈)を含む5091本の動画クリップから成る、Group Affect from ViDeos(GAViD)データセットを導入する。これらは三値のバレンスおよび離散的な感情ラベルで注釈されており、VideoGPTによって生成された文脈メタデータと、人手で注釈された行動の手がかりによって強化されている。加えて、マルチモーダルな文脈対応型群情動認識のためのContext-Aware Group Affect Recognition Network(CAGNet)を提示する。CAGNetはGAViDにおいて63.20\%のテスト精度を達成しており、最先端の性能と同等である。データセットとコードはgithub.com/deepakkumar-iitr/GAViDで公開されている。