広告

EARTalking:フレームごとの制御を備えた、フレームワーク依存のないエンドツーエンドGPTスタイル自己回帰トーキングヘッド合成

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EARTalkingは、静止画と音声からリアルな“話す顔”動画を生成するための、エンドツーエンドのGPTスタイル自己回帰モデルであり、既存手法の中間表現への依存によって生じる表現力・画質の限界を改善することを狙っています。
  • 従来の拡散ベース手法はクリップ単位になりがちで、制御や遅延に課題がありましたが、EARTalkingはフレームごとのインコンテキストな音声駆動ストリーミング生成を提案しています。
  • 可変長生成とアイデンティティ一貫性を支えるためにSink Frame Window Attention(SFA)を導入し、フレームウィンドウの設計によって制約を緩和します。
  • 多様な制御信号を別ネットワークで扱う複雑さを避けるため、Streaming Frame Condition In-Context(FCIC)により制御信号をストリーミングかつインコンテキストに注入し、任意のタイミングで各フレームに対するインタラクティブ制御を可能にします。
  • 実験では既存の自己回帰系手法に優れる一方で、拡散ベースと同等水準の性能を示しており、再現性のためコード公開が予定されています。

Abstract

音声駆動のトーキングヘッド生成は、静止した肖像と発話から、生き生きと現実的な動画を生成することを目的としています。既存のARベースの手法は、中間的な顔表現に依存しており、そのため表現力と現実感に限界があります。一方、拡散ベースの手法はクリップごとに生成するため、きめ細かな制御ができず、ウィンドウ全体に対するデノイズ(ノイズ除去)を行うことにより本質的にレイテンシが生じます。これらの制約に対処するため、我々はEARTalkingを提案します。EARTalkingは、インタラクティブな音声駆動トーキングヘッド生成のための、新しいエンドツーエンドのGPTスタイルの自己回帰(オートレグレッシブ)モデルです。本手法では、新しい「フレームごと」「インコンテキスト」「音声駆動」のストリーミング生成パラダイムを導入します。さらに、アイデンティティの一貫性を維持しつつ可変長の動画生成を本質的に可能にするために、Sink Frame Window Attention(SFA)メカニズムを提案します。加えて、従来研究で必要とされた複雑で個別のネットワークを回避し、多様な制御信号に対応するために、Streaming Frame Condition In-Context(FCIC)スキームを提案します。このスキームは、ストリーミングかつインコンテキストな形で多様な制御信号を効率的に注入し、任意の時点で、かつ各フレームごとにインタラクティブな制御を可能にします。実験の結果、EARTalkingは既存の自己回帰手法よりも優れており、拡散ベース手法と同等の性能を達成することが示されました。本研究は、インコンテキストなストリーミング自己回帰制御の実現可能性を示し、柔軟で効率的な生成のためのスケーラブルな方向性を切り開くものです。コードは再現性のために公開されます。

広告