ダブル・ガイダンスによる拡散モデル：集約データセットで生成する

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模データセットが高価であり、かつ情報源ごとにアノテーションが一貫しないために、条件付き生成拡散モデルの学習が難しい問題を扱う。単純なデータセット統合を行うと、「ブロック単位」で条件が欠落してしまう。
「ダブル・ガイダンス付き拡散モデル（Diffusion Model with Double Guidance）」を提案し、学習データにすべての条件が同時に含まれていなくても、正確な条件付き生成を可能にする。
本手法は、複数属性に対する厳密な制御を維持しつつ、共同アノテーションを不要にすることを目指し、実運用における欠落条件の状況でも制御性を高める。
分子生成および画像生成に関する実験では、本手法が、目標とする条件付き分布との一致および欠落条件設定下での制御性の維持の両面で、ベースラインを上回ることが示される。

要旨: 高性能な生成モデルの学習のために大規模なデータセットを作成することは、特に属性やアノテーションを提供する必要がある場合、しばしば過度に費用がかかります。そのため、既存のデータセットを統合することが一般的な戦略になっています。しかし、データセット間での属性の集合はしばしば一貫しておらず、素朴な単純連結は通常、ブロック単位で条件が欠落した状態につながります。これは、複数の属性を条件として同時に用いる際の条件付き生成モデリングにとって重要な課題であり、それによりモデルの制御性と適用可能性が制限されます。
この問題に対処するため、我々は新しい生成アプローチ、Double Guidance を備えた拡散モデル（Diffusion Model with Double Guidance）を提案します。この手法は、学習サンプルにすべての条件が同時に含まれていない場合でも、正確な条件付き生成を可能にします。我々の方法は、ジョイントのアノテーションを必要とせずに、複数の条件に対する厳密な制御を維持します。分子生成および画像生成のタスクにおいて、その有効性を示します。そこでは、本手法は、目標とする条件付き分布との整合性および条件が欠落している設定下での制御性の両方において、既存のベースラインを上回ります。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

ダブル・ガイダンスによる拡散モデル：集約データセットで生成する

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer