概要: 拡散モデルの事後学習(post-training)パイプラインは現在、2つの段階から成っています。すなわち、厳選データでの教師あり微調整(SFT)と、報酬モデルによる強化学習(RL)です。これらには基本的なギャップがあります。SFTは順方向のノイズ付加プロセスからサンプリングされた真値(ground-truth)の状態に対してのみ、デノイザを最適化します。推論がこれらの理想的な状態から逸脱した後は、その後のデノイジングは、学習された補正ではなく分布外一般化に依存するようになり、トークン列ではなくデノイジングの軌跡(trajectory)に沿って蓄積する点を除けば、自己回帰モデルを悩ませるのと同じ露出バイアス(exposure bias)が現れます。理論上、RLはこの不一致を解消できますが、終端の報酬シグナルは疎であり、クレジット割当(credit-assignment)の難しさに直面し、さらに報酬ハッキング(reward hacking)のリスクもあります。そこで我々は、SOAR(Self-Correction for Optimal Alignment and Refinement)という、バイアス補正のための事後学習手法を提案します。これはこのギャップを埋めるものです。実サンプルから開始し、SOARは現在のモデルで単一のstop-gradientロールアウトを行い、その結果得られた軌道外(off-trajectory)の状態を再ノイズ付加し、その後、元のクリーンなターゲットへと戻るようにモデルを誘導する教師信号を与えます。この手法はオンポリシーで、報酬を用いず(reward-free)、クレジット割当の問題なしに、時刻ごとの密な(dense)教師を提供します。SD3.5-Mediumにおいて、SOARはSFTに対してGenEvalを0.70から0.78へ、OCRを0.64から0.67へと改善し、同時にすべてのモデルベースの嗜好(preference)スコアを引き上げます。報酬に特化した制御実験では、報酬モデルにアクセスしていないにもかかわらず、SOARは最終指標の値において、審美(aesthetic)とテキスト・画像整合(text-image alignment)の両方のタスクでFlow-GRPOを上回ります。SOARの基礎となる損失は標準的なSFT目的を包含しているため、事前学習(pretraining)後のより強力な最初の事後学習段階として、SFTをそのまま直接置き換えることができ、かつ、その後のRL整合(RL alignment)とも完全に互換です。
SOAR:拡散モデルにおける最適アラインメントとリファインメントのための自己矯正
arXiv cs.LG / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 拡散モデルのポストトレーニングでは、SFT(教師あり微調整)が正しい前向きノイズ経路の状態にのみ最適化されるため、推論時に逸脱すると露出バイアスが発生し、補正が学習されないというギャップがある。
- 提案手法SOARは、実サンプルからモデルを1回ロールアウトしてオフ軌道状態を得た後、それを再ノイズし、元のクリーンターゲットへ戻すように自己矯正するオンポリシー・報酬フリーのバイアス補正を行う。
- SOARは報酬モデルも報酬信号も不要で、各タイムステップに対する密な教師信号によりクレジット割当問題を回避できる。
- SD3.5-MediumでGenEvalとOCRがSFTから大幅に改善し、さらにモデルベースの嗜好スコアも総じて向上するなど、RLなしでもアラインメント改善が確認された。



