要旨: 近年のテキストから画像への合成における進歩は、主として拡散ベースのモデルによって牽引されてきましたが、テキストプロンプトと生成画像の間の正確な整合(アラインメント)を達成することは、依然として持続的な課題です。本研究では、この困難さは主に従来の拡散損失の制約に起因していることを見出します。従来の拡散損失では、微細なテキスト-画像対応関係をモデル化する際に必要となる明示的な教師信号が欠けており、暗黙的な監督(implicit supervision)しか提供できません。本論文では、拡散モデルにおいて、タイムステップが増加するほどテキスト-画像の正確な整合を確立することが次第に難しくなるという支持的な観察に基づいて、Cross-Timestep Self-Calibration(CTCal)を提案します。CTCalは、ノイズが少ない小さなタイムステップで形成される信頼性の高いテキスト-画像整合(すなわちクロスアテンションマップ)を用いて、ノイズが多い大きなタイムステップにおける表現学習を較正することで、学習中に明示的な監督を与えます。さらに、CTCalと拡散損失を調和よく統合するために、タイムステップに応じた適応的な重み付け(timestep-aware adaptive weighting)も提案します。CTCalはモデルに依存せず、既存のテキストから画像への拡散モデルにそのままシームレスに統合できます。具体的には、拡散ベース(例: SD 2.1)およびフローベース(例: SD 3)の両アプローチを含みます。T2I-Compbench++およびGenEvalベンチマークに対する大規模な実験により、提案したCTCalの有効性と一般化性能が示されます。コードは https://github.com/xiefan-guo/ctcal で公開しています。
CTCal: クロスタイムステップの自己校正によるテキストから画像への拡散モデルの再考
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CTCalは、従来の拡散損失がテキストと生成画像の細かな対応付けを十分に“明示的”に監督できないことを、課題の主要因として捉えています。
- 小さいtimestepでノイズが少ない段階で得られる信頼できるクロスアテンション(text-image alignment)を、大きいtimestepの表現学習のキャリブレーションに転用することで、学習時の明示的な位置合わせを実現します。
- CTCalは拡散損失との併用に向けて、timestepに応じた適応的重み付けも提案し、両者を整合的に統合できる設計です。
- 研究ではT2I-Compbench++とGenEvalでの実験により、モデル非依存(model-agnostic)で汎用性が高く、SD 2.1のような拡散ベースからSD 3のようなフローベースまで幅広く組み込めることを示しています。
- 実装コードはGitHubで公開されており、既存のテキスト-to-イメージ生成モデルへ容易に適用できることが強調されています。
