言語拡散モデルは、未見データを想起できる連想記憶である

arXiv cs.LG / 2026/4/30

📰 ニュースModels & Research

要点

  • この論文は、Uniform-based Discrete Diffusion Models(UDDMs)を、保存データを回復する「引き込み領域(attraction basins)」が創発的に形成される連想記憶として捉えられると主張しています。
  • 明示的なエネルギー関数は必須ではなく、条件付き尤度最大化によって同様の基底領域が形成され得る点を提案しています。
  • 学習データとテストデータのトークン回復を比較することで、学習データセットのサイズにより支配される、記憶化から汎化への「鋭い移行」を見出しています。
  • さらに、この移行は、予測トークン列の条件付きエントロピーのみを使って検出でき、記憶化では条件付きエントロピーがほぼゼロになると示しています。
  • これらの結果は、実運用の言語拡散モデルが記憶化しているのか、それとも本当に汎化しているのかを評価するための実用的な診断手段を示唆しています。

要旨: 言語拡散モデルはいつ自らの学習データを記憶するのか、またそれらの真の生成的レジームを定量的にどのように評価できるのか。私たちは、Uniform ベースの離散拡散モデル(UDDMs)が本質的に連想記憶(AMs)として振る舞い、しかも《創造的能力が創発する》ことを示すことで、これらの問いに取り組む。AMの中核となる考え方は、それらの周りに明確な吸引領域(バシン・オブ・アトラクション)を確立することで、保存されたデータ点を《記憶(memories)》として確実に回復できるようにすることにある。歴史的に、ホップフィールド・ネットワークのようなモデルは、これらの安定したアトラクタを保証するために明示的なエネルギー関数を用いてきた。我々は、エネルギーは必ずしも厳密に必要ではなく、吸引領域は条件付き尤度の最大化によっても形成されうる、という観察を活用することで、この視点を拡張する。\textit{training} と\textit{test} の各例についてトークンの回復を評価することにより、UDDMにおいて学習データセットの大きさによって支配される、記憶化から汎化への鋭い遷移を同定する。すなわち、データセットが増加するにつれて、学習例の周りの吸引領域は縮小し、未見のテスト例の周りの吸引領域は拡大していき、その結果、両者は同じ水準に収束する。決定的に重要なのは、この遷移を予測されたトークン系列の条件付きエントロピーのみで検出できる点である。記憶化は条件付きエントロピーの消失によって特徴づけられ、一方で汎化レジームでは、ほとんどのトークンの条件付きエントロピーは有限のままである。したがって、条件付きエントロピーは、実運用されるモデルにおける記憶化から汎化への遷移のための実用的なプローブを提供する。