AHPA:拡散トランスフォーマーのための適応的階層優先(Prior)アライメント

arXiv cs.CV / 2026/5/6

📰 ニュースModels & Research

要点

  • 本論文は、拡散トランスフォーマーに対する既存の表現アライメントが固定された監督目標や固定のアライメント粒度を全デノイズ・ティムステップで用いることが多く、最適ではないと主張する。
  • 信号対雑音比に応じて適切なアライメント粒度は変わり、高ノイズ領域では粗い意味・レイアウトのアンカーが有効で、低ノイズ領域では空間的に詳細で構造的に忠実なリファインメントを重視すべきだと述べる。
  • このミスマッチを解消するため、著者らは、単一の圧縮潜在を目標にするのではなく、凍結したVAEエンコーダに内在する多段階の階層的特徴を活用する「Adaptive Hierarchical Prior Alignment(AHPA)」を提案する。
  • ティムステップに条件付けされたDynamic Routerが、デノイズ経路に沿って階層的プライオリティを動的に選択・重み付けし、学習ニーズの変化に粒度を同期させる。
  • 実験では、AHPAがベースラインより収束と生成品質を改善し、推論時の追加コストを伴わず、学習中の外部エンコーダ監督も不要であることが示されている。

要旨: 表現アラインメントは、拡散トランスフォーマーの学習を加速するための効果的なパラダイムとして、近年注目を集めている。成功しているにもかかわらず、既存のアラインメント手法は一般に、固定された教師となるターゲット、あるいは、外部の視覚エンコーダ、内部の自己表現、VAE由来の特徴のいずれによってガイダンスが与えられる場合でも、推論の軌跡全体(denoising trajectory)にわたって固定されたアラインメントの粒度を課す。私たちは、このようなタイムステップ非依存のアラインメントは最適ではないと主張する。というのも、表現の教師として有用な粒度は、信号対雑音比に応じて体系的に変化するからである。高雑音の状況では、拡散モデルは粗い意味やレイアウトレベルのアンカーにより大きな恩恵を受ける一方で、低雑音の状況では、学習信号は空間的に詳細で、かつ構造的に忠実な洗練を強調すべきである。この非定常なアラインメント挙動は、固定の単一レベル教師に対して表現の不一致を生じさせる。そこでこの問題に対処するために、凍結したVAEエンコーダに自然に埋め込まれている階層表現を活用する軽量なアラインメント枠組みである、適応的階層事前アラインメント(Adaptive Hierarchical Prior Alignment: AHPA)を提案する。アラインメント目標として単一の圧縮潜在表現のみを用いるのではなく、AHPAは複数レベルのVAE特徴を抽出し、局所的な幾何構造や空間トポロジから、粗い意味的レイアウトに至るまで、補完的な事前情報(priors)を提供する。タイムステップに条件付けされたダイナミック・ルータが、復元(denoising)の軌跡に沿って、これらの階層的事前情報を適応的に選択し重み付けすることで、アラインメントの粒度を、モデルの変化する学習ニーズに同期させる。大規模な実験により、AHPAはベースラインよりも収束性と生成品質を向上させること、さらに学習中に外部エンコーダの教師を必要とせず、推論時の追加コストも発生しないことが示される。

AHPA:拡散トランスフォーマーのための適応的階層優先(Prior)アライメント | AI Navigate