Stable Diffusionにおける記憶（メモライゼーション）はCLIP埋め込みによって意外にも駆動されている

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Stable Diffusionのようなテキスト生成画像拡散モデルが学習内容を意外にも記憶（メモライゼーション）してしまう理由を、CLIPのテキスト埋め込みがどのように関与するかという観点で分析します。
記憶が強く出るケースではプロンプト埋め込みの寄与が小さい一方で、<pad>埋め込みが記憶に強く影響することが分かりました。これは<p添>埋め込みが構造的に<endoftext>埋め込みを重複しているためです。
著者らは、この重複が<endoftext>埋め込みの影響を増幅させる（CLIP学習で明示的に最適化されているため）ことで、モデルがそれに過度に依存し、結果として記憶が促進されると主張します。
記憶の抑制策として、推論時に適用できる簡単な埋め込み置換／マスキングの2つの方針を提案し、品質を落とさずにメモライゼーションを抑えられることを示します。
この結果は、安全性と解釈可能性に関わる重要な仕組みとして、CLIP側のトークン埋め込みの副作用が拡散生成における記憶リスクへつながり得る点を明確にします。

要旨: テキスト・トゥ・イメージ拡散モデルにおいて、テキスト埋め込みが記憶（memorization）にどのように寄与するかを理解することは、解釈可能性と安全性の両面で重要である。本論文では、Stable Diffusion における CLIP 埋め込みの予期しない挙動を調査し、モデルが特定の埋め込みに過度に依存していることを明らかにする。入力トークンを、、、に分類し、それぞれに対応する埋め込みを $\mathbf{v}^{\mathbf{sot}}, \mathbf{v}^{\mathbf{pr}}, \mathbf{v}^{\mathbf{eot}}, \mathbf{v}^{\mathbf{pad}}$ とする。我々は、 $\mathbf{v}^{\mathbf{pr}}$ が、記憶されたケースにおける生成への寄与が最小であることを発見する。一方で、 $\mathbf{v}^{\mathbf{pad}}$ は、 $\mathbf{v}^{\mathbf{eot}}$ の構造的な重複（duplication）によって強く記憶に影響する。 $\mathbf{v}^{\mathbf{eot}}$ は、CLIP の学習中に明示的に最適化されている唯一の埋め込みである。この重複は意図せずに $\mathbf{v}^{\mathbf{eot}}$ の影響を増幅し、結果としてモデルがそれに過度に依存することで、記憶が駆動される。これらの観察に基づき、推論時に適用できる、単純でありながら効果的な 2 つの抑制（mitigation）戦略を提案する：（1）埋め込みの前に、トークナイザの既定のをではなく ! トークンに置き換え、 $\mathbf{v}^{\mathbf{eot}}$ をマスクする；（2） $\mathbf{v}^{\mathbf{pad}}$ の部分的なマスキング。これらはいずれも品質を損なうことなく記憶を抑制し、事前の検出なしに容易に導入できる。