PromptEcho：テキストから画像への強化学習のための、視覚言語モデルからの注釈不要な報酬

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、報酬モデルの学習や人間の嗜好データの収集を必要としない、テキストから画像への強化学習向けの注釈不要な報酬構築手法「PromptEcho」を提案する。
PromptEcho は固定化した視覚言語モデル（VLM）を用いて、元のプロンプトと生成された画像の間のトークン単位の交差エントロピーを計算し、VLMの事前学習における整合（alignment）の知識を決定論的な報酬信号へと変換する。
著者らは、PromptEcho が計算効率に優れており、より強力なオープンソースVLMが利用可能になるにつれて報酬が自動的に改善されること、また報酬品質がVLMのサイズに応じてスケールすることを報告している。
2つのT2Iモデル（Z-Image、QwenImage-2512）での実験により、新しく導入された DenseAlignBench（プロンプト追従のための高密度キャプションベンチマーク）で大きな改善が確認される（+26.8pp / +16.2pp のネット勝率）。さらに、他のベンチマーク（GenEval、DPG-Bench、TIIFBench）でも、タスク固有の学習なしで一貫した改善が得られる。
本研究では DenseAlignBench（プロンプト追従のための高密度キャプションベンチマーク）を作成し、学習済みモデルとベンチマークをオープンソース化する計画が含まれている。

Abstract

強化学習（RL）はテキストから画像（T2I）モデルのプロンプト追従能力を向上させることができますが、高品質な報酬（リワード）信号を得ることは依然として困難です。CLIPスコアは粒度が粗すぎる一方で、VLMベースの報酬モデル（例: RewardDance）は、人手でアノテーションされた嗜好データと、追加の微調整を要します。私たちは、 emph{注釈不要}かつ extit{報酬モデル学習不要}の報酬構築手法であるPromptEchoを提案します。生成された画像と導きとなるクエリが与えられると、PromptEchoは、元のプロンプトをラベルとして用い、凍結したVLMのトークンレベルの交差エントロピー損失を計算します。これにより、VLMの事前学習中にエンコードされた画像-テキストの整合性（アラインメント）に関する知識を直接抽出します。報酬は決定論的であり、計算効率が高く、より強力なオープンソースVLMが利用可能になるにつれて自動的に改善します。評価のために、プロンプト追従能力を厳密に検証する、概念に富んだ高密度キャプションのベンチマークであるDenseAlignBenchを開発します。最先端の2つのT2Iモデル（Z-ImageおよびQwenImage-2512）に対する実験結果では、PromptEchoがDenseAlignBenchで大幅な改善を達成することが示されました（+26.8pp / +16.2pp ネット勝率）。さらに、タスク固有の学習なしでGenEval、DPG-Bench、TIIFBenchでも一貫した向上が得られています。アブレーション研究により、PromptEchoが同じVLMを用いた推論ベースのスコアリングを包括的に上回ること、そして報酬品質がVLMのサイズに応じてスケールすることが確認されます。学習済みモデルとDenseAlignBenchをオープンソースとして公開します。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

PromptEcho：テキストから画像への強化学習のための、視覚言語モデルからの注釈不要な報酬

要点

Abstract

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減