テキストから画像生成モデルのRL事後トレーニングのための有限差分フロー最適化

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散ベースのテキストから画像生成モデルの事後トレーニング最適化のオンライン強化学習（RL）変種を提案し、対になった軌道をサンプリングして更新分散を低減し、より有利な画像へ流れの速度をバイアスさせることで最適化を行う。
従来の手法が各サンプリングステップを別個のアクションとして扱うのに対し、彼らのアプローチは全体のサンプリングプロセスを1つのアクションとして捉え、より安定した訓練を目指す。
高品質なビジョン・言語モデルで評価し、既製の品質指標を報酬として用い、収束の速さと画像品質およびプロンプト整合性の改善を報告している。
結果は、本手法が収束速度と出力品質の両方で従来の手法を上回ることを示唆しており、拡散モデルのRLベースの事後トレーニングには有望な方向性を示している。

要旨：強化学習（RL）は、事後訓練済み拡散ベースの画像合成モデルに対する標準的な技術となっており、報酬信号から学習することにより、画像品質やプロンプトの整合性といった望ましい側面を明示的に改善します。本論文では、ペアとなる軌道をサンプリングし、より有利な画像の方向へ流速を引くことで、モデル更新の分散を低減するオンラインRLの変種を提案します。既存の手法が各サンプリングステップを個別のポリシーアクションとして扱うのとは異なり、全体のサンプリングプロセスを単一のアクションとして捉えます。報酬として高品質なビジョン言語モデルと市販の品質指標の両方を用いて実験し、広範な指標セットを用いて出力を評価します。私たちの手法は収束が速く、以前のアプローチよりも高い出力品質とプロンプト整合性をもたらします。