動的パッチサンプリングとブロックスキッピングによるメモリ効率の高いファインチューニング拡散トランスフォーマ

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストから画像へのパーソナライズを対象に、計算およびメモリのボトルネックを低減することを目的とした拡散トランスフォーマ向けのメモリ効率の高いファインチューニング手法 DiT-BlockSkip を提案する。
  • タイムステップに応じた動的パッチサンプリングを導入し、拡散の各タイムステップでパッチサイズを変化させるとともに、切り出したパッチを固定の低解像度にリサイズして、グローバルな特徴学習と細かな詳細の学習のバランスをより適切に取る。
  • ブロックスキッピングのファインチューニング機構を追加し、必要なトランスフォーマブロックのみを選択的に更新し、スキップしたブロックの残差特徴を事前計算することで、学習メモリをさらに削減する。
  • パーソナライズに最も重要なブロックを特定するために、クロスアテンションに基づくマスキングによるブロック選択戦略を用いる。
  • 実験結果から、パーソナライズの品質は競争力のある水準を維持しつつ、メモリ使用量を大幅に低減できることが示され、大規模拡散モデルのより現実的なオンデバイス展開という目標を後押しする。

要旨: 拡散トランスフォーマー(DiT)は、テキストから画像への生成(T2I)の品質を大幅に向上させ、高品質なパーソナライズコンテンツ作成を可能にしました。しかし、これらのモデルを微調整するには計算量とメモリの負荷が大きく、リソース制約下での実用的な展開が難しくなっています。そこで本研究では、事前計算によって残差特徴量を用意することで、タイムステップに応じた動的パッチサンプリングとブロックスキップを統合した、メモリ効率の高い微調整フレームワーク DiT-BlockSkip を提案します。動的パッチサンプリング戦略では、拡散のタイムステップに応じてパッチサイズを調整し、その後切り出したパッチを固定の低解像度へリサイズします。この手法により、順伝播・逆伝播のメモリ使用量を削減しつつ、より高いタイムステップでは大域的な構造を捉え、より低いタイムステップではきめ細かな詳細を捉えられるようになります。ブロックスキップ機構は、本当に必要なトランスフォーマーブロックのみを選択的に微調整し、スキップしたブロックの残差特徴量を事前計算することで、学習時のメモリを大幅に削減します。パーソナライズにとって重要なブロックを特定するために、クロスアテンションのマスキングに基づくブロック選択戦略も提案します。評価の結果、本手法は定性的・定量的に競争力のあるパーソナライズ性能を達成しながら、メモリ使用量を大きく削減できることが示されました。これにより、大規模な拡散トランスフォーマーを、スマートフォンやIoTデバイスなどのオンデバイスで実現する方向へ近づきます。