Premier:テキストから画像生成における学習可能なユーザー埋め込みによるパーソナライズされた嗜好のモジュレーション
arXiv cs.CV / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Premierは、マルチモーダルLLMから推定されるプロンプトや潜在コードに頼るのではなく、各ユーザーの嗜好に対応する専用の埋め込みを学習することで、パーソナライズされたテキストから画像生成のための新しい嗜好モジュレーション(preference-modulation)フレームワークである。
- この手法では、嗜好アダプタを用いてユーザー埋め込みとテキストプロンプトを融合し、その後、融合された嗜好埋め込みをさらに適用して生成過程をモジュレートすることで、よりきめ細かな制御を実現する。
- パーソナライズの品質を向上させ、ユーザー同士の表現が似通ってしまう(collapse)ことを避けるために、Premierは分散損失(dispersion loss)を導入し、異なるユーザーの埋め込み間の分離を強制する。
- ユーザーデータが乏しい場合にも対応できるよう、新規ユーザーは既存の学習済み嗜好埋め込みの線形結合として表現し、パーソナライズの汎化を狙う。
- 実験(テキスト一貫性、ViPerの代理指標、専門家による評価を含む)では、同じ嗜好履歴の長さの条件下で、従来手法よりも嗜好の整合性および全体的な性能が向上したことが報告されている。
