実世界の画像再構成と操作における高忠実度拡散反転のための潜在バイアス整合

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散反転問題—テキストから画像への拡散モデルを用いてシードノイズから実世界の画像を再構成すること—に取り組み、2つの主要な課題、すなわち軌跡の不整合とVQオートエンコーダ(VQAE)による再構成との不一致を指摘する。
  • そのために、反転の各ステップで潜在バイアスベクトルを学習し、反転と生成の軌跡間の食い違いを低減する手法として、潜在バイアス最適化(Latent Bias Optimization: LBO)を提案する。
  • さらに、拡散反転とVQAEによる再構成をよりうまくつなぐために画像潜在表現を調整する、近似的な同時最適化アプローチとして、画像潜在ブースティング(Image Latent Boosting: ILB)を導入する。
  • 実験により、再構成品質の向上と、画像編集や稀少な概念の生成といった下流タスクでのより強い性能が示される。

実世界の画像再構成と操作における高忠実度拡散反転のための潜在バイアス整合 | AI Navigate