広告

EruDiff:高度なテキストから画像への合成のための拡散モデルにおける知識のリファクタリング

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、テキストから画像への拡散モデルが暗黙的なプロンプトに苦手意識を持つのは、基盤となる知識構造が位置ずれを起こし、その結果として表現が混沌とし、反事実的な出力につながるためだと主張しています。
  • それに対し、本論文では EruDiff を提案します。EruDiff は、困難な暗黙的プロンプトの分布を、明示的な「アンカープロンプト」の分布に一致させることで、 Diffusion Knowledge Distribution Matching(DK-DM)によりモデルの知識をリファクタリングします。
  • 明示的プロンプトのレンダリングにより導入されるバイアスを緩和するため、この手法では微調整(fine-tuning)中のきめ細かな補正に Negative-Only Reinforcement Learning(NO-RL)を用います。
  • 実験では、科学的および幅広い世界知識を対象とするベンチマーク(Science-T2I と WISE)において、主要モデル(FLUX や Qwen-Image を含む)に対して顕著な性能向上が示され、汎化可能性も主張されています。
  • 著者らは、実装と再現のためのオープンソースのコードリポジトリを提供しています:https://github.com/xiefan-guo/erudiff

広告