フローマップ報酬ガイダンスによる少ステップ・アラインメントの手引き

arXiv cs.LG / 2026/5/1

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、生成モデルにおける「ガイダンス」を、報酬最大化(美的品質や人間の嗜好との整合など)を決定論的な最適制御問題として定式化することで扱います。
  • 既存のガイダンス手法を包含するアルゴリズムの階層を示し、最適解の中でフローマップが自然に現れることを明らかにします。
  • その知見に基づき、学習不要で単一トラジェクトリの枠組みである Flow Map Reward Guidance(FMRG)を提案し、フローマップを使ってフローの統合と誘導の両方を行います。
  • テキストから画像規模の実験では、逆問題、スタイル転送、人間の嗜好、VLM報酬など幅広いタスクで、NFEが最大でも3回程度でベースラインに匹敵、あるいは上回る性能を示し、従来の最先端に比べて約1桁の速度向上が得られたと報告しています。
  • 総じて、本研究は、高コストな多段ステップ手法や理解が不十分な近似に頼るガイダンスに対する、より原理的で効率的な代替案を提示します。

Abstract

生成モデリングにおいては、美的品質や人間の嗜好との整合性など、ユーザが指定した報酬を最大化するサンプルを生成したいことがよくあります。これはガイダンスとして知られる問題です。広く用いられているにもかかわらず、既存のガイダンス手法は、コストの高い多粒子・多段階の手順を必要とするか、あるいは十分に理解されていない近似に依存しています。私たちはガイダンスを決定論的な最適制御問題として再定式化し、最も粗いレベルでは既存の手法を包括するアルゴリズムの階層を導きます。近年の高速推論における重要な対象であるフローマップが、最適解の中で自然に現れることを示します。この観察に基づき、Flow Map Reward Guidance(FMRG)を提案します。FMRGは、フローマップを用いてフローを統合すると同時にガイドする、学習不要の単一軌道フレームワークです。テキストから画像へのスケールでは、FMRGは逆問題、スタイル転送、人間の嗜好、およびVLM報酬において、最大で3つのNFEという少なさでベースラインに匹敵するか、あるいはそれを上回ります。従来の最先端手法と比べて少なくとも桁(オーダー・オブ・マグニチュード)単位の速度向上を実現します。