拡散モデルはいつ複数の物体を生成できるようになるのか?
arXiv cs.AI / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、テキストから画像を生成する拡散モデルが複数物体の生成で不安定になる理由を、主に学習データ側に起因するのかモデル学習側に起因するのかという観点で検証しています。
- 著者らは「概念の一般化」(各概念が学習中に観測されるものの、頻度が偏る可能性がある)と「合成(組み合わせ)の一般化」(特定の概念組み合わせを意図的に学習から除外する)を切り分け、失敗の要因を分離します。
- 制御されたデータ生成フレームワーク「mosaic」を用いて拡散モデルを学習したところ、複数物体生成の失敗は概念の不均衡よりも、シーンの複雑さが支配的な要因であることが示されました。
- また、データが少ない低データ領域では「数える(カウンティング)」能力の学習が特に難しいこと、さらに学習から除外する概念組み合わせの数が増えるほど合成一般化が大きく崩れることも明らかにしています。
- これらの結果は、複数物体の合成的生成における現在の拡散モデルの根本的な制約を示唆しており、より強い帰納バイアスや堅牢化のためのデータ設計が必要だと結論づけています。



