Frequency-Forcing:Scaling-as-Time から Soft Frequency Guidance へ

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 通常のフローマッチング(拡散)モデルはノイズからデータへを一様に輸送するが、粗い低周波構造から細部へという生成順序を明示すると自然画像合成が大きく改善されることが知られている。
  • 近年の関連手法として、K-Flowは周波数スケーリング変数をフロー時間として扱い変換した振幅空間上で軌道を進めることでハードに周波数制約を課し、Latent Forcingは補助セマンティック潜在フローを非同期の時間スケジュールで結合してソフトに順序付けする。
  • 提案手法Frequency-Forcingは、ソフトなフォーシング機構でK-Flow型の低周波→高周波の順序付けを実現しつつ、ピクセル生成のコアとなるフロー座標を書き換えないことを狙う。
  • Latent Forcingが重い事前学習エンコーダ(例:DINO)に依存するのに対し、Frequency-Forcingではデータから得られる軽量で学習可能なウェーブレットパケット変換による「frequency scratchpad」を用いて自己フォーシング信号を生成する。
  • ImageNet-256で、ピクセル空間・潜在空間の強力なベースラインに対して一貫してFIDが改善し、セマンティックストリームとの併用でもさらに性能向上が得られることを示している。

Abstract

標準的なフローマッチングモデルではノイズがデータへ均一に輸送されますが、明示的な生成順序、すなわち粗い低周波の構造を細部の前に確立することを組み込むと、自然画像の合成に非常に有効であることが示されています。近年の2つの研究は、それぞれ異なるパラダイムを提示しています。K-Flowは、周波数スケーリング変数をフロー時間として解釈し直すことで、周波数に対する強い制約を課し、振幅空間を変換した中で軌道を実行します。Latent Forcingは、ピクセルのフローを、非同期の時間スケジュールを介して補助的なセマンティック潜在フローと結合することで、ソフトな順序付けの仕組みを提供し、ピクセル補間パス自体はそのまま維持します。ピクセル生成の改善という観点から見ると、強制(より早く成熟する補助ストリームによって生成を導くこと)は、コアとなるフロー座標を書き換えずにスケール順序付け付き生成を拡張するのに非常に適した経路であることが分かります。これを踏まえ、我々はFrequency-Forcingを提案します。これは、Latent Forcingのソフトな仕組みによりK-Flowの周波数順序を実現します。つまり、標準的なピクセルフローは、低周波の補助ストリームで導かれ、補助ストリームは時間的により早く成熟します。DINOなどの重い事前学習エンコーダに依存するLatent Forcingとは異なり、我々の周波数用スクラッチパッドは、軽量な学習可能なウェーブレットパケット変換を用いてデータ自身から導出されます。これをself-forcing signal(自己強制シグナル)と呼びます。これは、ハードな周波数フローで用いられる固定の基底とは異なり、データ統計により適応した基底を学習しながら、外部依存を回避します。ImageNet-256では、Frequency-Forcingは強力なピクセル空間および潜在空間のベースラインに対して一貫してFIDを改善し、セマンティックストリームと自然に合成することでさらに向上をもたらします。これは、強制ベースのスケール順序付けが、ハードな周波数フローに代わる、経路を保持する柔軟な手段であることを示しています。