広告

MPDiT:効率的なフローマッチングと拡散モデルのためのマルチパッチ・グローバルからローカルへのトランスフォーマー・アーキテクチャ

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散/フローマッチング・モデル向けのマルチパッチ・グローバルからローカルへのトランスフォーマー・アーキテクチャであるMPDiTを提案する。初期ブロックではより大きなパッチを処理し、後期ブロックではより小さなパッチを処理することで、大域的な文脈を捉えたのちに詳細を洗練する。
  • 階層的パッチング戦略により、生成性能を維持しつつ、GFLOPs換算でトレーニング計算量を最大約50%削減できると主張する。
  • MPDiTは、学習の収束を加速することを目的とした改良された時間埋め込みおよびクラス埋め込みの設計も含む。
  • ImageNetでの実験結果が、アーキテクチャおよび埋め込みの選択を検証することを示す。
  • 著者らはGitHubにてコードを公開しており、他者がこの手法を再現し、発展させられるようにしている。

Abstract

Transformerアーキテクチャ、特にDiffusion Transformers(DiTs)は、畳み込みUNetと比べて強力な性能を発揮するため、拡散およびフローマッチングモデルで広く用いられるようになってきました。しかし、DiTの等方的な設計は、各ブロックで同じ数のパッチ化トークンを処理するため、学習プロセス中の計算量が比較的重くなります。本研究では、多段(マルチパッチ)Transformerの設計を導入します。ここでは、初期のブロックは粗いグローバルな文脈を捉えるためにより大きなパッチで動作し、後半のブロックは局所的な詳細を洗練するためにより小さなパッチを用います。この階層的な設計により、生成性能を良好に保ったまま、GFLOPsで最大50 %の計算コストを削減できる可能性があります。さらに、学習の収束を加速する時間埋め込みおよびクラス埋め込みの改良設計も提案します。ImageNetデータセットでの大規模な実験により、提案するアーキテクチャ選択の有効性が示されます。コードは url{https://github.com/quandao10/MPDiT} で公開されています

広告