PromptEcho:テキストから画像への強化学習のための、視覚言語モデルからの注釈不要な報酬
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、報酬モデルの学習や人間の嗜好データの収集を必要としない、テキストから画像への強化学習向けの注釈不要な報酬構築手法「PromptEcho」を提案する。
- PromptEcho は固定化した視覚言語モデル(VLM)を用いて、元のプロンプトと生成された画像の間のトークン単位の交差エントロピーを計算し、VLMの事前学習における整合(alignment)の知識を決定論的な報酬信号へと変換する。
- 著者らは、PromptEcho が計算効率に優れており、より強力なオープンソースVLMが利用可能になるにつれて報酬が自動的に改善されること、また報酬品質がVLMのサイズに応じてスケールすることを報告している。
- 2つのT2Iモデル(Z-Image、QwenImage-2512)での実験により、新しく導入された DenseAlignBench(プロンプト追従のための高密度キャプションベンチマーク)で大きな改善が確認される(+26.8pp / +16.2pp のネット勝率)。さらに、他のベンチマーク(GenEval、DPG-Bench、TIIFBench)でも、タスク固有の学習なしで一貫した改善が得られる。
- 本研究では DenseAlignBench(プロンプト追従のための高密度キャプションベンチマーク)を作成し、学習済みモデルとベンチマークをオープンソース化する計画が含まれている。




