Premier:テキストから画像生成における学習可能なユーザー埋め込みによるパーソナライズされた嗜好のモジュレーション

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Premierは、マルチモーダルLLMから推定されるプロンプトや潜在コードに頼るのではなく、各ユーザーの嗜好に対応する専用の埋め込みを学習することで、パーソナライズされたテキストから画像生成のための新しい嗜好モジュレーション(preference-modulation)フレームワークである。
  • この手法では、嗜好アダプタを用いてユーザー埋め込みとテキストプロンプトを融合し、その後、融合された嗜好埋め込みをさらに適用して生成過程をモジュレートすることで、よりきめ細かな制御を実現する。
  • パーソナライズの品質を向上させ、ユーザー同士の表現が似通ってしまう(collapse)ことを避けるために、Premierは分散損失(dispersion loss)を導入し、異なるユーザーの埋め込み間の分離を強制する。
  • ユーザーデータが乏しい場合にも対応できるよう、新規ユーザーは既存の学習済み嗜好埋め込みの線形結合として表現し、パーソナライズの汎化を狙う。
  • 実験(テキスト一貫性、ViPerの代理指標、専門家による評価を含む)では、同じ嗜好履歴の長さの条件下で、従来手法よりも嗜好の整合性および全体的な性能が向上したことが報告されている。

Abstract

テキストから画像を生成する技術は急速に進歩しているものの、ユーザーの嗜好に含まれる微妙なニュアンスを捉えることが依然として難しい状況です。既存の手法の多くは、多モーダルの大規模言語モデルを用いてユーザーの嗜好を推定しますが、そこから導出されるプロンプトや潜在コードは、嗜好を忠実に反映することがほとんどありません。その結果、パーソナライゼーションの品質が最適にならず、望ましい効果が得られません。私たちは、パーソナライズされた画像生成のための新しい嗜好モジュレーション枠組みである Premier を提案します。Premier は各ユーザーの嗜好を学習可能な埋め込みとして表現し、ユーザー埋め込みとテキストプロンプトを融合する嗜好アダプタを導入します。正確かつきめ細かな嗜好制御を可能にするため、融合された嗜好埋め込みをさらに生成プロセスのモジュレーションに用います。個々の嗜好の識別性を高め、出力とユーザー固有のスタイルとの整合性を改善するために、ユーザー埋め込み間の分離を強制する分散損失(dispersion loss)を組み込みます。ユーザーデータが乏しい場合には、新規ユーザーは、学習中に獲得された既存の嗜好埋め込みの線形結合として表現され、効果的な汎化が可能になります。実験の結果、Premier は同一の履歴長のもとで従来手法よりも優れており、より強い嗜好の整合性を達成し、テキスト一貫性、ViPer の代理指標、専門家評価において優れた性能を示します。