拡散モデルはいつ複数の物体を生成できるようになるのか?

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、テキストから画像を生成する拡散モデルが複数物体の生成で不安定になる理由を、主に学習データ側に起因するのかモデル学習側に起因するのかという観点で検証しています。
  • 著者らは「概念の一般化」(各概念が学習中に観測されるものの、頻度が偏る可能性がある)と「合成(組み合わせ)の一般化」(特定の概念組み合わせを意図的に学習から除外する)を切り分け、失敗の要因を分離します。
  • 制御されたデータ生成フレームワーク「mosaic」を用いて拡散モデルを学習したところ、複数物体生成の失敗は概念の不均衡よりも、シーンの複雑さが支配的な要因であることが示されました。
  • また、データが少ない低データ領域では「数える(カウンティング)」能力の学習が特に難しいこと、さらに学習から除外する概念組み合わせの数が増えるほど合成一般化が大きく崩れることも明らかにしています。
  • これらの結果は、複数物体の合成的生成における現在の拡散モデルの根本的な制約を示唆しており、より強い帰納バイアスや堅牢化のためのデータ設計が必要だと結論づけています。

Abstract

テキストから画像への拡散モデルは印象的な視覚的忠実度を達成しますが、複数オブジェクトの生成においては信頼性が低いままです。これらの失敗に関しては膨大な経験的証拠があるにもかかわらず、根本的な原因は不明なままです。私たちはまず、この制約のどれほどがデータそのものに起因しているのかを問います。データ効果を切り離すために、さまざまなデータセットサイズにまたがって2つの状況を考えます: (1)概念の一般化。ここでは、各個別の概念が、潜在的に偏ったデータ分布のもとで、学習中に観測されることがあります。 (2)構成的な一般化。ここでは、特定の概念の組み合わせが体系的に学習から除外されます。これらの状況を研究するために、データセット生成のための制御された枠組みとして mosaic(Multi-Object Spatial relations, AttrIbution, Counting)を導入します。mosaic で拡散モデルを学習すると、概念の不均衡よりもシーンの複雑さが支配的な役割を果たすこと、そしてカウントは低データ状況では特有に学習が困難であることが分かります。さらに、構成的な一般化は、学習中に除外される概念の組み合わせ数が増えるほど崩壊します。これらの結果は拡散モデルの本質的な限界を浮き彫りにし、頑健な複数オブジェクトの構成的生成に向けて、より強い帰納バイアスとデータ設計を動機づけます。