BlendFusion -- 拡散モデル学習のためのスケーラブルな合成データ生成

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 拡散モデルの学習では、合成の画像-キャプションデータの利用が増えているが、モデルのみが生成した画像は視覚的不整合を引き起こしうる。その結果、フィードバックループが生まれ、「Model Autophagy Disorder(MAD)」と呼ばれる状態につながる。
  • 本論文では、3Dシーンからパストレーシングによって画像をレンダリングし、拡散モデルのためのより一貫した学習データを生成することを目指す、スケーラブルな合成データ生成フレームワークであるBlendFusionを提案する。
  • BlendFusionは、オブジェクト中心のカメラ配置、頑健なフィルタリング、そして自動キャプション付与を組み合わせることで、高品質な画像-キャプション対を生成する。
  • このパイプラインを用いて著者らは、多様な3Dシーンから構築された画像-キャプションデータセットであるFineBLENDをキュレーションし、いくつかの確立された画像-キャプションデータセットと比較評価する。
  • 著者らは、他の研究者が3Dシーンから独自のデータセットを生成できるようにする、オープンソースで高い設定自由度を備えたフレームワークを公開し、オブジェクト中心のカメラ配置が、オブジェクト非依存のサンプリングよりも結果を改善することを示す。

要旨: 拡散モデルの急速な普及に伴い、合成データ生成は、大規模な画像データセットに対する需要の高まりに対応する有望なアプローチとして注目されています。しかし、拡散モデルだけで生成された画像はしばしば視覚的な不整合を示し、そのようなデータでモデルを学習すると、モデルの崩壊につながる自己食作用的(autophagous)なフィードバックループが生じ得ます。この現象は、一般にモデル自己食障害(Model Autophagy Disorder: MAD)と呼ばれます。これらの課題に対処するために、本研究ではパストレーシングを用いた3Dシーンからの合成データ生成のための、スケーラブルな枠組みであるBlendFusionを提案します。私たちのパイプラインには、オブジェクト中心のカメラ配置戦略、頑健なフィルタリング機構、自動キャプション生成が組み込まれており、高品質な画像—キャプションのペアを作成します。このパイプラインを用いて、さまざまな3Dシーンの集合から構築された画像—キャプションデータセットであるFineBLENDを編集します。さらに、FineBLENDの品質を実験的に分析し、広く用いられているいくつかの画像—キャプションデータセットと比較します。また、オブジェクト非依存のサンプリング手法に対する、オブジェクト中心のカメラ配置戦略の有効性も実証します。私たちのオープンソースの枠組みは高い設定自由度を目指して設計されており、コミュニティが3Dシーンから独自のデータセットを作成できるようにしています。