PromptEcho:テキストから画像への強化学習のための、視覚言語モデルからの注釈不要な報酬

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、報酬モデルの学習や人間の嗜好データの収集を必要としない、テキストから画像への強化学習向けの注釈不要な報酬構築手法「PromptEcho」を提案する。
  • PromptEcho は固定化した視覚言語モデル(VLM)を用いて、元のプロンプトと生成された画像の間のトークン単位の交差エントロピーを計算し、VLMの事前学習における整合(alignment)の知識を決定論的な報酬信号へと変換する。
  • 著者らは、PromptEcho が計算効率に優れており、より強力なオープンソースVLMが利用可能になるにつれて報酬が自動的に改善されること、また報酬品質がVLMのサイズに応じてスケールすることを報告している。
  • 2つのT2Iモデル(Z-Image、QwenImage-2512)での実験により、新しく導入された DenseAlignBench(プロンプト追従のための高密度キャプションベンチマーク)で大きな改善が確認される(+26.8pp / +16.2pp のネット勝率)。さらに、他のベンチマーク(GenEval、DPG-Bench、TIIFBench)でも、タスク固有の学習なしで一貫した改善が得られる。
  • 本研究では DenseAlignBench(プロンプト追従のための高密度キャプションベンチマーク)を作成し、学習済みモデルとベンチマークをオープンソース化する計画が含まれている。

Abstract

強化学習(RL)はテキストから画像(T2I)モデルのプロンプト追従能力を向上させることができますが、高品質な報酬(リワード)信号を得ることは依然として困難です。CLIPスコアは粒度が粗すぎる一方で、VLMベースの報酬モデル(例: RewardDance)は、人手でアノテーションされた嗜好データと、追加の微調整を要します。私たちは、 emph{注釈不要}かつ extit{報酬モデル学習不要}の報酬構築手法であるPromptEchoを提案します。生成された画像と導きとなるクエリが与えられると、PromptEchoは、元のプロンプトをラベルとして用い、凍結したVLMのトークンレベルの交差エントロピー損失を計算します。これにより、VLMの事前学習中にエンコードされた画像-テキストの整合性(アラインメント)に関する知識を直接抽出します。報酬は決定論的であり、計算効率が高く、より強力なオープンソースVLMが利用可能になるにつれて自動的に改善します。評価のために、プロンプト追従能力を厳密に検証する、概念に富んだ高密度キャプションのベンチマークであるDenseAlignBenchを開発します。最先端の2つのT2Iモデル(Z-ImageおよびQwenImage-2512)に対する実験結果では、PromptEchoがDenseAlignBenchで大幅な改善を達成することが示されました(+26.8pp / +16.2pp ネット勝率)。さらに、タスク固有の学習なしでGenEval、DPG-Bench、TIIFBenchでも一貫した向上が得られています。アブレーション研究により、PromptEchoが同じVLMを用いた推論ベースのスコアリングを包括的に上回ること、そして報酬品質がVLMのサイズに応じてスケールすることが確認されます。学習済みモデルとDenseAlignBenchをオープンソースとして公開します。

PromptEcho:テキストから画像への強化学習のための、視覚言語モデルからの注釈不要な報酬 | AI Navigate