拡散モデルをトークンの入れ替えで導く

arXiv cs.CV / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、条件付き・無条件の拡散生成の両方に対してガイダンスを可能にする、CFGに似た推論手法であるSelf-Swap Guidance(SSG)を提案する。
  • SSGは、目標とするトークン—潜在の入れ替え操作によって摂動付きの予測を作成し、その摂動付き予測とクリーン予測の間の方向を用いて、高忠実度な分布へ向けてサンプリングを誘導することで機能する。
  • 本手法は、意味的に不連続な(不相似な)トークン潜在のペアに対して、空間次元またはチャネル次元をまたいできめ細かく入れ替えを行い、従来手法よりも制約の強い摂動を実現する。
  • MS-COCO 2014/2017およびImageNetでの実験により、SSGは従来の条件フリー手法と比べて画像の忠実性とプロンプト整合性を改善するだけでなく、摂動強度に対する頑健性も向上させることが示される。
  • 著者らは、SSGは既存の拡散モデルにプラグインとして適用でき、統合の手間を最小限にすることで即座に改善が得られると主張している。