EARTalking:フレームごとの制御を備えた、フレームワーク依存のないエンドツーエンドGPTスタイル自己回帰トーキングヘッド合成
arXiv cs.CV / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- EARTalkingは、静止画と音声からリアルな“話す顔”動画を生成するための、エンドツーエンドのGPTスタイル自己回帰モデルであり、既存手法の中間表現への依存によって生じる表現力・画質の限界を改善することを狙っています。
- 従来の拡散ベース手法はクリップ単位になりがちで、制御や遅延に課題がありましたが、EARTalkingはフレームごとのインコンテキストな音声駆動ストリーミング生成を提案しています。
- 可変長生成とアイデンティティ一貫性を支えるためにSink Frame Window Attention(SFA)を導入し、フレームウィンドウの設計によって制約を緩和します。
- 多様な制御信号を別ネットワークで扱う複雑さを避けるため、Streaming Frame Condition In-Context(FCIC)により制御信号をストリーミングかつインコンテキストに注入し、任意のタイミングで各フレームに対するインタラクティブ制御を可能にします。
- 実験では既存の自己回帰系手法に優れる一方で、拡散ベースと同等水準の性能を示しており、再現性のためコード公開が予定されています。




