MPDiT:効率的なフローマッチングと拡散モデルのためのマルチパッチ・グローバルからローカルへのトランスフォーマー・アーキテクチャ
arXiv cs.CV / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散/フローマッチング・モデル向けのマルチパッチ・グローバルからローカルへのトランスフォーマー・アーキテクチャであるMPDiTを提案する。初期ブロックではより大きなパッチを処理し、後期ブロックではより小さなパッチを処理することで、大域的な文脈を捉えたのちに詳細を洗練する。
- 階層的パッチング戦略により、生成性能を維持しつつ、GFLOPs換算でトレーニング計算量を最大約50%削減できると主張する。
- MPDiTは、学習の収束を加速することを目的とした改良された時間埋め込みおよびクラス埋め込みの設計も含む。
- ImageNetでの実験結果が、アーキテクチャおよび埋め込みの選択を検証することを示す。
- 著者らはGitHubにてコードを公開しており、他者がこの手法を再現し、発展させられるようにしている。



