階層型コーデック拡散によるビデオから音声の生成

arXiv cs.CV / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この論文は、動画から音声を生成する課題において、話し言葉が「話者に関する粗い意味」から「韻律の細かな要素」まで階層的に構成されているにもかかわらず、従来手法がその点を見落としてきたと指摘しています。
  • RVQベースの離散音声トークンが持つ多段階の階層性を活用することで、音声と映像の対応付けを高める「HiCoDiT(Hierarchical Codec Diffusion Transformer)」を提案します。
  • HiCoDiTは低レベル/高レベルの2種類の拡散ブロックを使い、低レベルは唇の同期運動と顔の同一性に条件付けして話者に関する内容を捉え、高レベルは顔の表情で韻律ダイナミクスを調整します。
  • 粗い情報から細かい情報へより効果的に条件付けできるように、チャンネル方向(全体の声のスタイル)と時間方向(局所的な韻律の動き)を組み合わせる「双スケールの適応的インスタンス正規化」を提案しています。
  • 実験ではベースラインよりも忠実性と表現力が向上したとされ、コードと音声デモは指定のGitHubから公開されています。

要旨: 音声対映像生成(Video-to-Speech: VTS)は、無音の動画から聴覚信号なしに音声を合成することを目指す。しかし、既存のVTS手法は、粗い話者に関する意味から微細な韻律(プロソディ)情報までを包含する、音声の階層性を無視している。この見落としにより、プロパティ・マッチングの際に特定の階層レベルで、視覚特徴と音声特徴を直接に整列させることが妨げられる。本論文では、Residual Vector Quantization(RVQ)ベースのコーデックの階層構造を活用し、離散的な音声トークンの内在する階層性を用いて強固な音声-映像アライメントを実現する、新しい階層型コーデック・ディフュージョン・トランスフォーマであるHiCoDiTを提案する。具体的には、低レベルのトークンは話者に関する粗い意味を符号化し、高レベルのトークンは微細な韻律を捉えるため、HiCoDiTは異なるレベルでトークンを生成するために、低レベルおよび高レベルのブロックを用いる。低レベルブロックは、口唇同期した運動と顔の同一性に条件付けして話者に関する内容を捉え、一方で高レベルブロックは表情を用いて韻律ダイナミクスを調整する。最後に、より効果的な粗→細の条件付けを可能にするため、チャネル方向の正規化によってチャネルごとにグローバルな発声スタイルを捉え、時間方向の正規化によって局所的な韻律ダイナミクスを捉える、デュアルスケールのアダプティブ・インスタンス層正規化を提案する。大規模な実験により、HiCoDiTが忠実性と表現力の両面でベースラインを上回ることが示され、VTSにおける離散的モデリングの可能性が強調される。コードおよび音声デモはいずれも https://github.com/Jiaxin-Ye/HiCoDiT で利用可能である。