EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control
arXiv cs.CV / 3/24/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- EARTalkingは、静止画と音声からリアルな“話す顔”動画を生成するためのエンドツーエンドGPT-style自己回帰モデルで、既存手法の中間表現依存による表現力・画質の限界を狙って改善します。
- 従来の拡散ベースがクリップ単位になりがちで制御や遅延に課題があったのに対し、EARTalkingはフレームごとのインコンテキストな音声駆動ストリーミング生成を提案しています。
- 可変長生成とアイデンティティ一貫性を支えるためにSink Frame Window Attention(SFA)を導入し、フレームウィンドウの設計で制約を緩和します。
- 多様な制御信号を別ネットワークで扱う複雑さを避けるため、Streaming Frame Condition In-Context(FCIC)により制御信号をストリーミングかつインコンテキストに注入し、任意のタイミングで各フレームに対するインタラクティブ制御を可能にします。
- 実験では既存の自己回帰系手法に優れる一方、拡散ベースと同等水準の性能を示し、再現性のためコード公開が予定されています。
Related Articles
Santa Augmentcode Intent Ep.6
Dev.to

Your Agent Hired Another Agent. The Output Was Garbage. The Money's Gone.
Dev.to
ClawRouter vs TeamoRouter: one requires a crypto wallet, one doesn't
Dev.to
Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Palantir’s billionaire CEO says only two kinds of people will succeed in the AI era: trade workers — ‘or you’re neurodivergent’
Reddit r/artificial