FVD:Fleming-Viot Resampling による拡散モデルの推論時アラインメント

arXiv cs.AI / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、SMCベースのアプローチでよく見られる多様性の崩壊(diversity collapse)および系統の崩壊(lineage collapse)を対象とする、拡散サンプラのための推論時アラインメント手法「Fleming-Viot Diffusion(FVD)」を提案する。
  • FVDは、マルチノミアル・リサンプリングを、Fleming-Viotに着想を得た出生・死滅(birth-death)メカニズムで置き換える。報酬に基づく生存判断を独立に行い、報酬が概ねしか得られない場合には、確率的な再誕生(rebirth)ノイズを用いる。
  • この手法は、価値(value)関数の近似やコストの高いロールアウトを必要とせずに、より広い軌道(trajectory)の支持を維持しつつ、報酬に傾いた分布(reward-tilted distributions)を効率よく探索することを目指す。
  • 本手法は完全に並列化可能であり、推論計算に対して効率よくスケールするため、大規模なサンプリング作業に実用的である。
  • 実験では強い改善が報告されている。たとえば、ImageReward における DrawBench で約7%の向上、クラス条件付きタスクで FID が 14〜20% 改善、価値ベースの手法に比べて最大66倍高速である。

Abstract

本稿では、Fleming-Viot Diffusion(FVD)という推論時アラインメント手法を導入し、Sequential Monte Carlo(SMC)に基づく拡散サンプラーで一般に観測される多様性の崩壊を解消します。既存のSMCベースの拡散サンプラーは、多くの場合多項式リサンプリング、またはそれに密接に関連するリサンプリング方式に依存していますが、それらでも多様性が低下し、強い選択圧がかかると系統(ラインエージ)崩壊につながることがあります。Fleming-Viot の集団ダイナミクスに着想を得て、FVDは多項式リサンプリングを、拡散アラインメントのために設計された特殊な出生・死亡(birth-death)メカニズムに置き換えます。報酬が厳密には得られず、素朴なリバース(rebirth)が決定論的な軌道を崩壊させてしまう場合に対処するため、FVDは、独立した報酬に基づく生存判断と、確率的なリバース時のノイズを組み合わせます。これにより、より広い軌道の支持を保持しつつ、報酬に傾いた分布を効果的に探索できる柔軟な集団ダイナミクスが得られます。さらに、価値関数の近似や高コストなロールアウトを必要としません。FVDは完全に並列化可能で、推論計算に対して効率よくスケールします。実験的に、様々な設定で大きな改善が得られます。DrawBenchではImageRewardにおいて従来手法を7%上回り、クラス条件付きタスクでは強力なベースラインに対してFIDを約14〜20%改善し、価値関数ベースのアプローチより最大で66倍高速です。