保証された高速なテキスト／画像生成のためのウォームスタート・フローマッチング

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、軽量なドラフトサンプルを初期分布として用いることで、フローマッチングベースの生成モデルのサンプル生成を高速化する手法「Warm-Start Flow Matching（WS-FM）」を提案する。
純粋なノイズから開始するのではなく、目標時刻に近い時点からフロー整合プロセスを開始することで、サンプル品質を損なうことなく、時間ステップ数を大幅に短縮することを保証する。
本手法は、低品質のドラフトを高品質なサンプルへと変換する「学習を通じて洗練させる」パラダイムとして説明される。
合成データと実世界のテキスト・画像生成タスクを対象とした実験は、出力品質を維持しつつ保証された高速化を示している。

要約: 現在の自己回帰（AR）LLM、拡散ベースのテキスト/画像生成モデル、および最近のフロー・マッチング（FM）アルゴリズムは、高品質なテキスト/画像サンプルを生成する能力を有しています。しかし、これらのモデルにおける推論やサンプル生成は、多くの場合非常に時間がかかり、計算資源を大量に要します。主な原因は、トークンの長さに対応する多数の関数評価や拡散ステップの数です。これにより重いGPU資源、時間、電力が必要になります。本研究では、生成サンプルの品質を犠牲にすることなく、FMアルゴリズムのサンプル生成時間を保証されたスピードアップ係数で削減する新しい解法を提案します。私たちの核心的アイデアは、対象のAR/FMモデルに比べて生成時間がほとんど無視できる程度に計算的に軽量な生成モデルを利用することです。軽量モデルから得られるドラフトサンプルは、品質は満足のいくものではないが生成は高速であるとき、FMアルゴリズムの初期分布として見なされます。FMの従来の使い方で、純粋なノイズ（例：ガウス分布や一様分布）を初期分布として用いるのとは異なり、ドラフトサンプルはすでに一定の品質があるため、純粋なノイズFMケースにおいて0とするのではなく、開始時刻を終了時刻に近い値に設定することができます。これにより、目標データ分布に到達するまでの時間ステップ数を大幅に削減でき、スピードアップ係数は保証されます。私たちのアイデアは、{
em Warm-Start FM} または WS-FM と呼ばれ、低品質のドラフトサンプルから高品質のサンプルへと生成モデルを {
em learning-to-refine} する生成モデルとして本質的に見ることができます。概念実証として、合成的なおもちゃデータと現実世界のテキストおよび画像生成タスクのいくつかでこのアイデアを示し、品質を犠牲にすることなくサンプル生成の保証されたスピードアップを提供することを示します。