動画リファレンスからトーキング・アバターを生成する

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文では、単一の静止参照画像ではなく「異なるシーンの動画入力」を使ってトーキング・アバターを生成するTAVR（Talking Avatar generation from Video Reference）という枠組みを提案しています。
TAVRはトークン選択モジュールに加え、3段階の学習戦略を採用し、同一シーンでの事前学習（見た目のコピー）→異なるシーンへのファインチューニング（ドメイン適応）→アイデンティティ報酬に基づく強化学習（同一性を最大化）という流れで性能を高めます。
シーンをまたぐロバスト性を評価するために、作者らは厳選した異シーン動画ペア158組からなる新しいベンチマークを構築しました。
実験の結果、TAVRは推論時に柔軟な動画参照ができ、既存手法を定量・定性の両面で上回りつつ、高品質なトーキング・アバターとアイデンティティ保持を実現することが示されています。
さらに著者らは、本手法がプロダクションに展開されていると述べ、関連研究としてHeyGenのリサーチも紹介しています。

概要: 既存のトーキングアバター手法は、通常、ターゲット生成と同一シーン内の静的な参照画像に条件付けられた画像から動画へのパイプラインを採用します。この制約された単一視点では、十分な時間的および表情の手掛かりが欠けているため、カスタマイズされた背景のもとで高い忠実度を持つトーキングアバターを合成する能力が制限されます。そこで本稿では、シーンをまたいだ動画入力を活用することでパラダイムを転換する、新しい枠組み「Talking Avatar generation from Video Reference（TAVR）」を提案します。これらの拡張された時間的文脈を効果的に処理し、さらにシーンをまたいだドメインギャップを橋渡しするために、TAVRは包括的な三段階の学習スキームに加えて、トークン選択モジュールを統合します。具体的には、同一シーンでの動画事前学習により基礎的な外観のコピーを確立し、その後、強固なシーン間適応のために、シーンをまたいだ参照による微調整によってこれを拡張します。最後に、タスク固有の強化学習により、生成出力をアイデンティティに基づく報酬へと整合させ、アイデンティティの類似度を最大化します。シーンをまたいだ頑健性を体系的に評価するために、158組の注意深く厳選されたシーン間動画ペアからなる新しいベンチマークを構築します。大規模な実験の結果、TAVRは推論時の柔軟な動画参照の恩恵を受け、定量的にも定性的にも既存のベースラインを一貫して上回ることが示されました。本研究はプロダクションに導入されています。関連する研究については、\href{https://www.heygen.com/research}{HeyGen Research} および \href{https://www.heygen.com/research/avatar-v-model}{HeyGen Avatar-V} をご覧ください。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

動画リファレンスからトーキング・アバターを生成する

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣