AI Navigate

Naïve PAINE: プロンプト評価による軽量なテキストから画像生成の改善

arXiv cs.AI / 2026/3/16

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Naïve PAINE は、初期ノイズと与えられたプロンプトから画像の数値的品質を直接予測し、拡散ベースのテキストから画像生成を導く。
  • 最も予測品質の高いノイズシードのサブセットを選択し、それらを生成に使用することで、複数回の試行を行う必要を減らします。
  • この手法は、拡散モデルの出力がプロンプトとどれだけ一致するかのフィードバックを提供し、既存の拡散モデルパイプラインへ統合できるよう十分な軽量性を備えるよう設計されています。
  • 実験結果は、Naïve PAINE が複数のプロンプトコーパスのベンチマークにおいて既存の手法を上回ることを示しています。

要約: テキストから画像への (T2I) 生成は主に拡散モデル (DM) によって推進され、ランダムなガウスノイズに依存します。
したがって、カジノのスロットを回すのと同じく、同じユーザー定義の入力でも DM は異なる結果を生み出します。
これにはギャンブラーの負担が伴います:満足のいく結果を得るために、複数の生成サイクルを実行する必要があります。
しかし、DM が生成を種付けするために確率的サンプリングを使用しているにもかかわらず、生成される内容の品質の分布は、プロンプトとそれに対する DM の生成能力に大きく依存します。

この点を考慮して、拡散モデルの生成品質を、T2I の嗜好ベンチマークを活用して改善する Naïve PAINE を提案します。初期ノイズと与えられたプロンプトから、画像の品質を数値で直接予測します。Naïve PAINE は次に、いくつかの品質ノイズを選択してそれらを DM の生成へと渡します。さらに、Naïve PAINE はプロンプトに基づく DM の生成品質についてのフィードバックを提供し、既存の DM パイプラインにシームレスに組み込めるほど軽量です。実験結果は、Naïve PAINE がいくつかのプロンプトコーパスベンチマークで既存のアプローチを上回ることを示しています。

返却形式: {"translated": "翻訳されたHTML"}