InjectFlow: 直交注入によるフロー・マッチングで弱いガイドを強くする

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • フロー・マッチング(FM)モデルは、データセットバイアスの影響を受けやすいため、分布外(out-of-distribution)やマイノリティ・クラスのプロンプトに対して大きな意味の劣化が起こり得る。
  • 本論文は「バイアス・マニフォールド」を形式化し、推論時の性能低下を条件付き期待値の平滑化に帰し、それがトラジェクトリのロックインを引き起こし得ると説明する。
  • InjectFlowは、少数モードへ潜在的にドリフトすることに対抗するため、初期速度場の計算に直交する意味情報を注入する、学習不要の修正策として提案される。
  • 本手法は生成品質を維持し、乱数シードの変更を必要としない。実験では強い改善が示されており、GenEvalデータセットにおいて過去に失敗していたプロンプトの75%を修復することに成功している。
  • 本研究は、理論的分析と実装可能なアルゴリズムを組み合わせ、ビジュアル基盤モデルの公平性と頑健性を高めることを目的としている。

Abstract

フローマッチング(FM)は、近年、高忠実度の視覚生成における主要なアプローチとして台頭しており、常微分方程式(ODE)に基づくモデルに対する堅牢な連続時間の代替手法を提供しています。しかし、その成功にもかかわらず、FMモデルはデータセットのバイアスに対して非常に敏感であり、分布外(out-of-distribution)や少数クラスのサンプルを生成すると、意味が深刻に劣化してしまいます。本論文では、FMの枠組みの中で「バイアスマニフォールド(Bias Manifold)」を厳密な数学的に形式化します。性能低下は、条件付き期待値の平滑化(conditional expectation smoothing)によって引き起こされており、この仕組みが推論中に不可避的に軌道のロックイン(trajectory lock-in)を生み出すことを見いだします。これを解決するために、InjectFlowという新しい、学習不要(training-free)の手法を提案します。初期速度場(initial velocity field)の計算の際に直交する意味情報(orthogonal semantics)を注入することで実現し、ランダムシードの変更を必要としません。この設計により、多数派モードへ向かう潜在ドリフト(latent drift)を効果的に防ぎつつ、高い生成品質を維持します。大規模な実験により、本手法の有効性を示します。特にGenEvalデータセットでは、InjectFlowは、標準のフローマッチングモデルが正しく生成できなかったプロンプトの75%を確実に修正します。最終的に、私たちの理論解析とアルゴリズムは、より公平で頑健な視覚基盤モデルを構築するための、すぐに使える解決策を提供します。