ARGen: 画像ベースの動的感情認識に向けた、感情強化型生成的オーグメンテーション

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データが乏しく感情がロングテール分布に従う、制約のない現実環境(“in the wild”)における動的な顔の表情/感情認識を改善するための、2段階フレームワークARGenを提案する。
  • ARGenは、顔のアクションユニットを活用し、大規模な視覚言語モデルによる検索拡張型プロンプト生成を用いることで、解釈可能な感情の事前知識を生成し、感情的知識の整合を図るAffective Semantic Injection(ASI)を用いる。
  • 次に、Adaptive Reinforcement Diffusion(ARD)を適用する。これは、強化学習で強化されたテキスト条件付きの画像から動画への拡散手法であり、フレーム間の条件付きガイダンスにより時間的な一貫性を高める。
  • 多目的の報酬関数により、生成された表情の自然さ、顔の完全性、生成効率を同時に最適化し、合成品質と下流の認識精度の両方を対象とする。
  • 実験では、ARGenが生成の忠実度と認識性能の双方を向上させることが検証されており、感情/視覚ベースの感情認識に対して一般的に適用可能で、解釈可能な生成オーグメンテーションの枠組みを提供すると報告されている。

要旨: 野外における動的な顔の表情認識は、データ不足やロングテール分布のために依然として困難であり、希少な感情の時間的ダイナミクスをモデルが効果的に学習できないことを妨げています。これらの制約に対処するために、本研究ではARGen(Affect-Reinforced Generative Augmentation Framework)を提案します。これは、データに適応した動的表情生成を可能にし、頑健な感情知覚を実現する枠組みです。ARGenは2つの段階から動作します:Affective Semantic Injection(ASI)とAdaptive Reinforcement Diffusion(ARD)です。ASI段階では、顔のアクションユニットを通じて情動に関する知識の整合を確立し、大規模な視覚言語モデルを用いたリトリーバル強化型のプロンプト生成戦略により、首尾一貫した、かつきめ細かな情動の記述を合成します。これにより、解釈可能な感情の事前知識を生成プロセスへ注入します。ARD段階では、テキスト条件付きの画像から動画への拡散と強化学習を統合し、フレーム間の条件付きガイダンスと、多目的の報酬関数を導入することで、表情の自然さ、顔の完全性、生成の効率を同時に最適化します。生成タスクと認識タスクの両方に対する大規模な実験により、ARGenが合成の忠実性を大幅に向上させ、認識性能も改善することが検証され、視覚ベースの感情計算のための、解釈可能で汎用性のある生成的拡張パラダイムを確立することが示されます。