Flow Matchingの二次幾何学: テキストから画像への合成における意味粒度の整合
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Flow Matchingの下での生成的ファインチューニングの最適化ダイナミクスを分析し、標準のMSE目的が動的に進化する Neural Tangent Kernel(NTK)によって支配される二次形式として表現できることを示している。
- 潜在的なデータ相互作用行列を明らかにし、対角項が独立したサンプル学習を表し、非対角項が異種特徴間の残差的干渉を符号化することを浮き彫りにし、勾配相互作用は明示的には制御されていないことを浮き彫りにしている。
- これに対処するため、意味粒度整合(SGA)を提案し、訓練中の勾配衝突を緩和するようにベクトル残差場を意図的に操作する。
- DiTおよびU-Netでの実験は、SGAが収束を加速し生成画像の構造的整合性を保持することで、効率と品質のトレードオフを改善することを示している。
本文: arXiv:2603.10785v1 アナウンスタイプ: new
Abstract: 本研究では、生成的ファインチューニングの最適化ダイナミクスを分析します。Flow Matchingのフレームワークの下では、標準的なMSE目的関数は動的に進化する Neural Tangent Kernel(NTK)によって支配される二次形式として定式化できることを観察します。この幾何学的視点は、潜在的なデータ相互作用行列を明らかにし、対角項が独立したサンプル学習を表し、非対角項が異種特徴間の残差相関をエンコードすることを示します。標準的な訓練はこれらのクロス項干渉を黙示的に最適化しているが、それを明示的に制御することはなく、さらに支配的なデータ同質性の仮定はモデルの有効容量を制約する可能性があります。この洞察に動機づけられ、意味粒度整合(SGA)を提案します。SGA はベクトル残差場に対する意図的な介入を設計し、勾配衝突を緩和します。DiT および U-Net アーキテクチャに関する評価は、SGA が収束を加速し、構造的整合性を向上させることで、効率と品質のトレードオフを進展させることを確認しています。