個人の嗜好に合わせたテキストから画像生成のパーソナライズ

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最新のテキストから画像(T2I)モデルが平均的な美的訴求のために最適化されている一方で、個人の好みという主観的な性質は捉えきれていないと主張する。
  • 15人のユーザが、アート、ファッション、シネマティック写真などの領域にわたって評価した「5,000枚の画像」について、Flux 2およびNano Bananaといった最先端のT2I生成器から構成された70,000件のユーザ評価を収録する新しいデータセット「PAMELA」を導入する。
  • 著者らは、PAMELAに加えて既存の美的評価データを用いて学習するパーソナライズされた報酬モデルを提案し、現在の母集団レベルのアプローチよりも個人ごとの画像嗜好をより正確に予測することを目指す。
  • 実験により、個人向けの予測器がプロンプト最適化を可能にし、特定のユーザの嗜好に世代(生成)を寄せられることが示される。
  • データセットとモデルは、パーソナライズされたT2Iアラインメントおよび主観的な視覚品質評価について、標準化された研究を支援するために公開される。

要旨: 現代のテキストから画像への生成(T2I)モデルは高精細な視覚表現を生成できる一方で、個々のユーザーの嗜好に対しては無関心であり続けます。既存の報酬モデルは「平均的」な人間の好感度を最適化することを目指しているものの、美的判断に内在する主観性を捉えきれていません。本研究では、個人化された画像評価をモデル化するための、PAMELAと呼ばれる新しいデータセットおよび予測フレームワークを提案します。私たちのデータセットは、最先端のモデル(Flux 2およびNano Banana)が生成した多様な5,000枚の画像に対する70,000件の評価で構成されています。各画像は15人の固有ユーザーによって評価され、芸術、デザイン、ファッション、シネマティックな写真といった領域にまたがって、主観的嗜好の豊かな分布が得られます。このデータを活用し、私たちは、高品質な注釈と既存の美的評価サブセットを共同で学習する、個人化報酬モデルを提案します。提案モデルは、個人ごとの好みを、現行の最先端の大多数の手法が集団レベルの嗜好を予測するよりも高い精度で予測できることを示します。さらに、この個人化予測器を用いて、単純なプロンプト最適化手法により、生成を個々のユーザーの嗜好へと誘導できることを示します。結果は、ユーザー嗜好の主観性を扱うためには、データ品質とパーソナライゼーションが重要であることを強調しています。私たちは、個人化されたT2Iアラインメントおよび主観的な視覚品質評価における標準化された研究を促進するために、データセットとモデルを公開します。