Calibri：パラメータ効率の高いキャリブレーションによる拡散トランスフォーマの強化

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ノイズ除去プロセス中のスケーリングが生成タスク向けの拡散トランスフォーマ（DiT）をどのように改善できるかを分析し、学習されたスケーリングパラメータが1つあるだけでもブロックの性能を向上できることを示す。
DiTの各コンポーネントを最適化しつつ、変更するのは約~100パラメータ程度にとどめるパラメータ効率の高いキャリブレーション手法「Calibri」を提案する。
Calibriは、DiTのキャリブレーションをブラックボックスの報酬最適化問題として扱い、有効なキャリブレーション設定を見つけるために進化的アルゴリズムを用いる。
複数のテキストから画像へのモデルに対する実験により、生成品質において一貫した向上が確認される。さらに、画像生成に必要な推論ステップ数を削減できるという利点も得られる。

Abstract

本論文では、拡散トランスフォーマ（DiT）が生成タスクを大きく強化するための秘められた可能性を明らかにします。復元（denoising）過程の詳細な分析を通じて、単一の学習済みスケーリング・パラメータを導入することで、DiTブロックの性能を大幅に改善できることを示します。この洞察に基づき、生成品質を高めるためにDiTコンポーネントを最適に校正する、パラメータ効率の高い手法であるCalibriを提案します。Calibriは、DiTの校正をブラックボックスの報酬最適化問題として定式化し、進化的アルゴリズムによって効率的に解き、約100パラメータのみを変更します。実験結果は、軽量な設計にもかかわらず、Calibriがさまざまなテキストから画像へのモデルにわたって一貫して性能を改善することを示します。とりわけ、Calibriは高品質な出力を維持しながら、画像生成に必要な推論ステップ数も削減します。