AI Navigate

AccelAes: 学習不要な美的強化画像生成のための拡散トランスフォーマーを加速する

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • AccelAes は、美学を意識した時空間削減と、プロンプトの意味論とクロスアテンション信号に基づいて派生した AesMask を用いることで、学習不要なフレームワークを提案し、拡散トランスフォーマーを加速します。
  • SkipSparse を導入して、計算とガイダンスをマスク領域へ再割り当てし、高解像度画像生成における推論レイテンシを低減します。
  • 全体の Transformer 評価を定期的に置換することで時間的冗長性を低減する、軽量なステップ単位の予測キャッシュを使用します。
  • 経験的な結果として、Lumina-Next で 2.11倍の高速化と、密なベースラインに対する ImageReward の +11.9% の改善を示し、コードを公開しています。

要旨:Diffusion Transformers(DiTs)は、高解像度での強力なスケーラビリティと整合性により、テキストから画像への高忠実度生成の主要なバックボーンです。しかし、密な空間トークンに対する二乗自己注意は推論遅延を生じさせ、デプロイメントを制限します。プロンプトにおける美的記述に対してデノイジングは空間的に非一様であることを観察しました。美的トークンに関連する領域は集中的なクロスアテンションを受け、時間的変動が大きいのに対し、低親和性の領域は冗長な計算とともに滑らかに進化します。この洞察に基づき、訓練を要しないフレームワークAccelAesを提案します。美的要素を意識した時空間削減を通じてDiTsを高速化し、知覚的美学を向上させます。AccelAesはAesMaskを構築します。AesMaskはプロンプトの意味論とクロスアテンション信号から派生したワンショット美的フォーカスマスクです。局所化された計算が可能な場合、SkipSparseは計算とガイダンスをマスク領域へ再配分します。さらに、完全なTransformer評価を定期的に置換する軽量なステップレベル予測キャッシュを用いて時間的冗長性を低減します。代表的なDiTファミリに対する実験は、一貫した加速と美学指向の品質の向上を示しました。Lumina-Nextでは、AccelAesは2.11倍のスピードアップを達成し、密なベースラインに対してImageRewardを+11.9%改善します。コードはhttps://github.com/xuanhuayin/AccelAesに公開されています。