要約: テキストから画像への (T2I) 生成は主に拡散モデル (DM) によって推進され、ランダムなガウスノイズに依存します。
したがって、カジノのスロットを回すのと同じく、同じユーザー定義の入力でも DM は異なる結果を生み出します。
これにはギャンブラーの負担が伴います:満足のいく結果を得るために、複数の生成サイクルを実行する必要があります。
しかし、DM が生成を種付けするために確率的サンプリングを使用しているにもかかわらず、生成される内容の品質の分布は、プロンプトとそれに対する DM の生成能力に大きく依存します。
この点を考慮して、拡散モデルの生成品質を、T2I の嗜好ベンチマークを活用して改善する Naïve PAINE を提案します。初期ノイズと与えられたプロンプトから、画像の品質を数値で直接予測します。Naïve PAINE は次に、いくつかの品質ノイズを選択してそれらを DM の生成へと渡します。さらに、Naïve PAINE はプロンプトに基づく DM の生成品質についてのフィードバックを提供し、既存の DM パイプラインにシームレスに組み込めるほど軽量です。実験結果は、Naïve PAINE がいくつかのプロンプトコーパスベンチマークで既存のアプローチを上回ることを示しています。
返却形式: {"translated": "翻訳されたHTML"}