動画リファレンスからトーキング・アバターを生成する

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文では、単一の静止参照画像ではなく「異なるシーンの動画入力」を使ってトーキング・アバターを生成するTAVR(Talking Avatar generation from Video Reference)という枠組みを提案しています。
  • TAVRはトークン選択モジュールに加え、3段階の学習戦略を採用し、同一シーンでの事前学習(見た目のコピー)→異なるシーンへのファインチューニング(ドメイン適応)→アイデンティティ報酬に基づく強化学習(同一性を最大化)という流れで性能を高めます。
  • シーンをまたぐロバスト性を評価するために、作者らは厳選した異シーン動画ペア158組からなる新しいベンチマークを構築しました。
  • 実験の結果、TAVRは推論時に柔軟な動画参照ができ、既存手法を定量・定性の両面で上回りつつ、高品質なトーキング・アバターとアイデンティティ保持を実現することが示されています。
  • さらに著者らは、本手法がプロダクションに展開されていると述べ、関連研究としてHeyGenのリサーチも紹介しています。

概要: 既存のトーキングアバター手法は、通常、ターゲット生成と同一シーン内の静的な参照画像に条件付けられた画像から動画へのパイプラインを採用します。この制約された単一視点では、十分な時間的および表情の手掛かりが欠けているため、カスタマイズされた背景のもとで高い忠実度を持つトーキングアバターを合成する能力が制限されます。そこで本稿では、シーンをまたいだ動画入力を活用することでパラダイムを転換する、新しい枠組み「Talking Avatar generation from Video Reference(TAVR)」を提案します。これらの拡張された時間的文脈を効果的に処理し、さらにシーンをまたいだドメインギャップを橋渡しするために、TAVRは包括的な三段階の学習スキームに加えて、トークン選択モジュールを統合します。具体的には、同一シーンでの動画事前学習により基礎的な外観のコピーを確立し、その後、強固なシーン間適応のために、シーンをまたいだ参照による微調整によってこれを拡張します。最後に、タスク固有の強化学習により、生成出力をアイデンティティに基づく報酬へと整合させ、アイデンティティの類似度を最大化します。シーンをまたいだ頑健性を体系的に評価するために、158組の注意深く厳選されたシーン間動画ペアからなる新しいベンチマークを構築します。大規模な実験の結果、TAVRは推論時の柔軟な動画参照の恩恵を受け、定量的にも定性的にも既存のベースラインを一貫して上回ることが示されました。本研究はプロダクションに導入されています。関連する研究については、\href{https://www.heygen.com/research}{HeyGen Research} および \href{https://www.heygen.com/research/avatar-v-model}{HeyGen Avatar-V} をご覧ください。