MMControl：音声・映像の同時生成における統一的マルチモーダル制御

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

共有:

要点

MMControlは、従来の手法が主に「映像のみ」の制御に限られていた点を解消し、音声・映像の同時生成に対する統一的なマルチモーダル制御を可能にする新しい枠組みです。
デュアルストリームの条件注入メカニズムにより、参照画像、参照音声、深度マップ、ポーズ系列などの「視覚」と「聴覚」の制約を、同時音声・映像の拡散トランスフォーマに同時に取り込みます。
提示された構造的制約を反映しながら、アイデンティティ（一貫した人物性）を保った映像と、音色（timbre）を保った音声を同時に生成することを目指しています。
モダリティ別ガイダンスのスケーリング機能により、推論時に各「視覚条件」および「音響条件」が生成へ与える影響の強さを、個別かつ動的に調整できます。
実験では、キャラクターのアイデンティティ、声の音色、身体のポーズ、シーン構図といった要素について、粒度の細かい合成可能な制御が音声・映像の同期生成で実現できると報告されています。

要旨: 拡散トランスフォーマ（DiT）の最近の進展により、高品質な結合型の音声・映像生成が可能になり、単一のモデル内で音声と同期した動画を生成できるようになりました。しかし、既存の制御可能な生成フレームワークは通常、映像のみの制御に制限されています。これは包括的な制御性を妨げるだけでなく、しばしばモーダル間の整合が最適ではない状態につながります。このギャップを埋めるために、本稿ではMMControlを提案します。MMControlは、結合型の音声・映像生成においてユーザがマルチモーダル制御を行えるようにします。MMControlは、デュアルストリームの条件付き注入（conditional injection）機構を導入します。参照画像、参照音声、深度マップ、ポーズ系列などの視覚および音響の制御信号をすべて取り込み、これらを結合生成プロセスに統合します。これらの条件は、バイパス分岐（bypass branches）を通じて、結合型の音声・映像拡散トランスフォーマへ注入されます。これにより、構造的な制約のもとで、モデルが同時に、アイデンティティ整合のとれた動画と、音色（timbre）整合のとれた音声を生成できるようになります。さらに、モダリティ固有のガイダンス倍率（guidance scaling）も提案します。これにより、推論時にユーザが各視覚条件と音響条件の影響の強さを、それぞれ独立して動的に調整できます。広範な実験により、MMControlが、結合型の音声・映像生成において、キャラクタの同一性、声の音色、身体のポーズ、シーン構成に関するきめ細かく、組み合わせ可能な制御を実現することを示します。