MMFace-DiT：高忠実度なマルチモーダル顔生成のためのデュアルストリーム拡散トランスフォーマ

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストの意味と空間構造の制御（例：マスク、スケッチ、エッジマップ）の両方に基づき、高忠実度なマルチモーダル顔生成を行うための統一型デュアルストリーム拡散トランスフォーマ（MMFace-DiT）を提案する。
主なアーキテクチャ上の革新は、空間トークンと意味トークンを並列に処理し、共有RoPE（回転位置埋め込み）を用いた注意機構によって融合するデュアルストリーム・トランスフォーマブロックにある。これにより、一方のモダリティが他方を支配しすぎることを防ぐ。
さらに、Modality Embedder（モダリティ・エンベッダー）を導入し、単一のモデルが様々な空間条件入力に対して学習をやり直すことなく動的に適応できるようにする。
実験では、6つの最先端のマルチモーダル顔生成手法と比較して、視覚的忠実度とプロンプト整合性が約40%向上したと報告されている。
著者らはコードとデータセット／プロジェクトページを提供しており、再現性を高め、制御可能なマルチモーダル生成的顔モデリングへの導入を容易にしている。

要旨: 近年のマルチモーダルな顔生成モデルは、テキストから画像への拡散モデルにおける空間制御の制約に対し、セグメンテーションマスク、スケッチ、エッジマップのような空間的事前情報を、テキストベースの条件付けに追加することで対処しています。このマルチモーダル融合により、高レベルの意味的意図と、低レベルの構造的レイアウトの両方に整合した制御可能な合成が可能になります。しかしながら、既存の多くの手法は一般に、事前学習済みのテキストから画像へのパイプラインを、補助的な制御モジュールを付け足すことで拡張するか、別々の単一モーダルネットワークをつなぎ合わせることで実現しています。その場しのぎの設計は、アーキテクチャ上の制約を引き継ぎ、パラメータを重複させることが多く、さらにモダリティ間の競合や潜在空間の不一致のもとではうまく機能しないことが多いため、意味領域と空間領域にまたがる相乗的な融合を行う能力が制限されます。本研究では、相乗的なマルチモーダル顔合成のために設計した、統一型のデュアルストリーム拡散トランスフォーマであるMMFace-DiTを提案します。本手法の中核となる新規性は、空間（マスク/スケッチ）トークンと意味（テキスト）トークンを並列に処理するデュアルストリーム・トランスフォーマブロックにあります。それらを、共有されたRotary Position-Embedded（RoPE）Attention機構によって深く融合します。この設計により、モダリティの支配を防ぎ、制御可能な顔生成を実現するために、テキストと構造的事前情報の両方への強い忠実性を保証し、これまでにない空間-意味の一貫性を達成します。さらに、新しいModality Embedderにより、再学習を行わずに、単一の統一モデルが多様な空間条件へ動的に適応できるようになります。 MMFace-DiTは、6つの最先端のマルチモーダル顔生成モデルに対して、視覚的忠実性とプロンプト整合性で40%の改善を達成し、エンドツーエンドの制御可能な生成モデリングのための、柔軟な新しいパラダイムを確立します。コードとデータセットは、プロジェクトページで公開しています: https://vcbsl.github.io/MMFace-DiT/