「$Z^2$-Sampling」—拡散モデルにおける意味整合のためのゼロコスト・ジグザグ軌道

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、標準的なClassifier-Free Guidance(CFG)がデータ・マニフォールドの内在する曲率を取りこぼしていると指摘し、意味整合のために多段のジグザグ軌道を用いる発想を提示している。
  • 「Implicit Z-Sampling(暗黙のZサンプリング)」を提案し、理論的にオフマニフォールド評価に伴う打ち切り誤差を除去して、明示的なジグザグ計算コストを抑える。
  • さらに「$Z^2$-Sampling(ゼロコスト・ジグザグ・サンプリング)」では、Probability Flow ODEの時間的コヒーレンスとキャッシュされたTemporal Semantic Surrogateを活用することで、サンプリング効率を標準の2-NFEベースラインに戻す。
  • Backward Error Analysisにより理論検証を行い、離散的な崩壊(collapse)が方向微分の曲率ペナルティを合成し、意味探索を損なわないことを示す。
  • 実験では、$Z^2$-Samplingが性能–効率のParetoフロンティアを構造的に破り、U-NetやDiTといった多様な拡散モデルや画像・動画といったモダリティに対して有効で、他の整合手法とも両立することが確認されている。

要旨: 拡散モデルは、テキスト整合に基づく生成において前例のない成功を収めてきました。これは主として、クラス分類器なし誘導(Classifier-Free Guidance: CFG)によって大きく牽引されています。しかし、標準的なCFGは瞬間的な勾配に厳密に基づいて動作するため、データマンフォールド固有の曲率が欠落しています。近年のZigzag-sampling(Z-Sampling)のような手法は、この曲率を調べるために、多段の順方向・逆方向の軌跡を明示的にたどります。その結果、セマンティックな整合は大幅に改善されます。とはいえ、こうした明示的な軌跡のたどりはニューラル関数評価(Neural Function Evaluation: NFE)コストを3倍にし、さらにマンフォールド外での評価に由来する、制約のない打ち切り誤差を導入します。その結果として真の周辺分布からの累積的なドリフトが生じます。本論文では、明示的なジグザグ系列が位相的に還元可能であることを理論的に示します。そこで我々は暗黙Zサンプリング(Implicit Z-Sampling)を提案し、中間状態が演算子の双対性によって代数的に消去可能であることを厳密に証明します。これにより、マンフォールド外近似誤差を物理的に除去します。サンプリング効率をその理論的下限まで押し下げるために、Z^2サンプリング(Z^2-Sampling)(ゼロコスト・ジグザグサンプリング)を導入します。確率フローODEの時間的なコヒーレンスを活用し、Z^2サンプリングは、暗黙の代数的崩壊と、動的にキャッシュされた時間的セマンティック・サロゲート(Temporal Semantic Surrogate)を結合します。これにより、意味的な探索を犠牲にすることなく、標準的な2-NFEのベースラインを復元します。さらに、後向き誤差解析(Backward Error Analysis)によって、こうした離散的な崩壊が本質的に方向微分の曲率ペナルティを合成することを形式的に証明します。最後に、大規模な評価により、Z^2サンプリングが性能効率のパレートフロンティアを構造的に打ち砕くことを示します。U-NetsやDiTsといった多様なアーキテクチャと、画像/動画といった異なるモダリティにわたって普遍的に適用可能であることを検証し、先進的な整合フレームワーク(AYS, Diffusion-DPO)とシームレスに直交することを確立します。