SEDTalker: フレーム単位の音声感情ダイアライゼーションによる感情認識型3D顔面アニメーション

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SEDTalker は、時間経過にわたって表情をきめ細かく制御しながら、3D顔面アニメーションを生成する感情認識型・音声駆動フレームワークとして提案されます。
  • 発話単位の感情ラベル、または手動で与えられた感情ラベルを用いる代わりに、フレーム単位の音声感情ダイアライゼーションを行い、音声から直接、時間的に高密度な感情カテゴリと強度を推定します。
  • 推定された感情シグナルは学習済み埋め込みに変換され、表情豊かな3Dトーキングヘッド生成のために、ハイブリッドのTransformer–Mambaアーキテクチャを条件付けするために用いられます。
  • このアプローチは、結果として得られるアニメーションにおいて、アイデンティティの保持と時間的な整合性を維持しつつ、言語的内容から感情的スタイルを分離することを目指します。
  • マルチコーパスの感情ダイアライゼーションデータ、および EmoVOCA に対する実験では、フレーム単位の感情認識で高い性能が示され、幾何学的・時間的な再構成誤差が小さいことに加え、定性的結果では感情遷移が滑らかであることが確認されます。

要旨: 本稿では、音声駆動の3D顔アニメーションのための、感情を認識するフレームワークであるSEDTalkerを紹介します。フレームレベルの音声感情ダイアライゼーションを活用することで、きめ細かな表現制御を実現します。従来の手法が発話レベル、または手動で指定した感情ラベルに依存していたのに対し、提案手法は音声から時間的に高密度な感情カテゴリと強度を直接予測し、それにより時間経過に応じて顔の表情を連続的に変調できるようにします。ダイアライゼーションされた感情信号は学習済み埋め込みとして符号化され、ハイブリッドなTransformer-Mambaアーキテクチャに基づく、音声駆動の3Dアニメーションモデルの条件付けに用いられます。この設計により、言語内容と感情スタイルを効果的に切り離しつつ、アイデンティティと時間的な整合性を保持できます。音声感情ダイアライゼーションのために大規模なマルチコーパスデータセットで、また感情付き3D顔アニメーションのためにEmoVOCAデータセットで、本手法を評価します。定量結果では、フレームレベルの感情認識における強い性能と、幾何学的および時間的な再構成誤差の低さが示されます。一方、定性的結果では、感情の遷移が滑らかで、表情制御が一貫していることが示されます。これらの知見は、表現力があり制御可能な3Dトーキングヘッド生成において、フレームレベルの感情ダイアライゼーションが有効であることを明らかにします。