Frequency-Forcing:Scaling-as-Time から Soft Frequency Guidance へ
arXiv cs.LG / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 通常のフローマッチング(拡散)モデルはノイズからデータへを一様に輸送するが、粗い低周波構造から細部へという生成順序を明示すると自然画像合成が大きく改善されることが知られている。
- 近年の関連手法として、K-Flowは周波数スケーリング変数をフロー時間として扱い変換した振幅空間上で軌道を進めることでハードに周波数制約を課し、Latent Forcingは補助セマンティック潜在フローを非同期の時間スケジュールで結合してソフトに順序付けする。
- 提案手法Frequency-Forcingは、ソフトなフォーシング機構でK-Flow型の低周波→高周波の順序付けを実現しつつ、ピクセル生成のコアとなるフロー座標を書き換えないことを狙う。
- Latent Forcingが重い事前学習エンコーダ(例:DINO)に依存するのに対し、Frequency-Forcingではデータから得られる軽量で学習可能なウェーブレットパケット変換による「frequency scratchpad」を用いて自己フォーシング信号を生成する。
- ImageNet-256で、ピクセル空間・潜在空間の強力なベースラインに対して一貫してFIDが改善し、セマンティックストリームとの併用でもさらに性能向上が得られることを示している。



