ECHO: 感情的に適切で文脈を認識した対話型頭部生成へ

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ECHOは長距離文脈理解(LCU)を導入し、インタラクティブな頭部生成のために文脈を認識し感情的に適切で理性的な表情挙動を実現する。
  • ブロック単位の空間認識型デカップリング・クロスアテンション・モジュレーション(SDCM)を追加し、口唇の動きを保持しつつ、非口唇部の顔領域にはユーザーの文脈的手掛かりを適応的に取り込む。
  • 本手法は、唇の同期と視覚的忠実度を同時に改善する二段階の訓練パラダイムを採用している。
  • 広範な実験により、従来の IHG アプローチより優れた性能を示し、短尺クリップの文脈制約および信号間干渉の問題を解決している。

要約: 自然な対面対話では、参加者は話すことと聴くことを途切れなく交互に行い、長距離の文脈によって細かく情報を得た表情行動(FB)を生み出し、文脈適切性と情緒的合理性を自然に示す。Interactive Head Generation(IHG)は、これらの能力を模倣するリアルなアバター頭部動画の合成を目指す。既存のIHG手法は通常、短時間のウィンドウ内でデュアルトラック信号(すなわち人間ユーザーの行動とアバター用に事前定義された音声)に基づいて条件付けされ、アバターの音声に整合した口唇アーティキュレーションと非言語的FBの生成を共同で駆動する。しかし、これらの手法には二つの主要な課題が依然として存在する:(i) 短時間クリップの行動が長距離の文脈モデリングなしに依存しているため、文脈適切性を欠く表情行動を生み出すことにつながる。(ii) デュアルトラック信号の絡み合った役割非依存の融合は経験的に信号間干渉を引き起こし、発話時の口唇領域の同期を損なう可能性がある。本研究では、ECHOという新規IHGフレームワークを提案する。2つの主要な要素から成る。1) 長距離文脈理解(LCU)コンポーネントは、行動に基づくダイナミクスと言語駆動の情動意味論の文脈理解を促進し、合成されたアバターFBの文脈適切性と情動的合理性を高める。2) ブロック単位の空間認識型分離型クロスアテンションモジュレーション(SDCM)モジュールは、自己音声駆動の口唇アーティキュレーションを保持しつつ、非口唇領域のためにユーザーの文脈的行動信号を適応的に統合する。さらに、我々が設計した二段階のトレーニングパラダイムにより、口唇の同期と視覚的忠実度を共同で高める。大規模な実験により、提案されたコンポーネントの有効性とECHOの優れたIHG性能を実証している。