EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

arXiv cs.CV / 3/24/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • EARTalkingは、静止画と音声からリアルな“話す顔”動画を生成するためのエンドツーエンドGPT-style自己回帰モデルで、既存手法の中間表現依存による表現力・画質の限界を狙って改善します。
  • 従来の拡散ベースがクリップ単位になりがちで制御や遅延に課題があったのに対し、EARTalkingはフレームごとのインコンテキストな音声駆動ストリーミング生成を提案しています。
  • 可変長生成とアイデンティティ一貫性を支えるためにSink Frame Window Attention(SFA)を導入し、フレームウィンドウの設計で制約を緩和します。
  • 多様な制御信号を別ネットワークで扱う複雑さを避けるため、Streaming Frame Condition In-Context(FCIC)により制御信号をストリーミングかつインコンテキストに注入し、任意のタイミングで各フレームに対するインタラクティブ制御を可能にします。
  • 実験では既存の自己回帰系手法に優れる一方、拡散ベースと同等水準の性能を示し、再現性のためコード公開が予定されています。

Abstract

Audio-driven talking head generation aims to create vivid and realistic videos from a static portrait and speech. Existing AR-based methods rely on intermediate facial representations, which limit their expressiveness and realism. Meanwhile, diffusion-based methods generate clip-by-clip, lacking fine-grained control and causing inherent latency due to overall denoising across the window. To address these limitations, we propose EARTalking, a novel end-to-end, GPT-style autoregressive model for interactive audio-driven talking head generation. Our method introduces a novel frame-by-frame, in-context, audio-driven streaming generation paradigm. For inherently supporting variable-length video generation with identity consistency, we propose the Sink Frame Window Attention (SFA) mechanism. Furthermore, to avoid the complex, separate networks that prior works required for diverse control signals, we propose a streaming Frame Condition In-Context (FCIC) scheme. This scheme efficiently injects diverse control signals in a streaming, in-context manner, enabling interactive control at every frame and at arbitrary moments. Experiments demonstrate that EARTalking outperforms existing autoregressive methods and achieves performance comparable to diffusion-based methods. Our work demonstrates the feasibility of in-context streaming autoregressive control, unlocking a scalable direction for flexible, efficient generation. The code will be released for reproducibility.