拡散モデルに対する進化的トークンレベル・プロンプト最適化

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストから画像を生成する拡散モデルがプロンプトの表現に対して非常に敏感であり、しばしば試行錯誤を伴う手作業が必要になることを扱い、単なるテキストの言い換えを超えた自動プロンプト最適化の必要性を動機づけている。
CLIPベースの拡散モデルにおいて、プロンプト条件付けを最適化探索空間として捉え、トークンベクトルを直接進化させる、進化ベースかつモデル非依存の手法を遺伝的アルゴリズム（Genetic Algorithm）で提案する。
GAの適応度（fitness）関数は、生成画像の美的評価をLAION Aesthetic Predictor V2で行い、さらにCLIPScoreにより生成画像とプロンプト間の意味的整合性を評価することで構成される。
Parti Prompts（P2）データセットの36のプロンプトに対する実験では、本手法はPromptistやランダム探索といったベースラインを上回り、適応度（fitness）で最大23.93%の改善を達成している。
著者らは、このフレームワークがモジュール化されており、トークン化されたテキストエンコーダを用いる他の画像生成モデルにも拡張可能であると主張している。

要旨: テキストから画像への拡散モデルは強力な生成性能を示す一方で、プロンプトの定式化に対して非常に敏感であり、満足のいく結果を得るためにしばしば広範な手作業による試行錯誤が必要となります。これに動機づけられ、従来のテキスト書き換えを超えて条件付けの空間を体系的に探索できる、自動化された、モデルに依存しないプロンプト最適化手法の開発が求められています。本研究では、CLIPベースの拡散モデルで用いられるトークンベクトルを直接進化させることで、プロンプト最適化に遺伝的アルゴリズム（GA）を用いることを検討します。GAは、LAION Aesthetic Predictor V2 により測定される美的品質と、CLIPScore によって評価されるプロンプト-画像間の整合性を組み合わせた適応度関数を最適化します。Parti Prompts（P2）データセットの36個のプロンプトに対する実験では、本提案手法が、Promptistやランダム探索を含むベースライン手法よりも優れており、適応度で最大23.93%の改善を達成することが示されました。全体として、この手法は、トークン化されたテキストエンコーダを備えた画像生成モデルに適用可能であり、将来の拡張に向けたモジュール化された枠組みを提供します。この枠組みに関する制限と展望についても議論します。