拡散学習において、すべてのトークンが同等に寄与するわけではない
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストからビデオへの条件付き拡散モデルにおいて、推論時に意味的に重要なトークンが無視され得ることを示し、特にクラシファイアフリーガイダンスでは、バイアスのかかった、または不完全な生成につながることがあると結論づけている。
- 問題の要因として、2つのドライバを挙げている。すなわち、学習データにおける長い裾をもつトークン頻度分布によるバイアスと、クロスアテンションにおける空間的な位置ずれであり、情報を持つトークンが意味の薄いトークンに圧倒されてしまう。
- これを解決するために、著者らはDAREを提案する。DAREは、トークン寄与の偏りを是正する分布整流クラシファイアフリーガイダンス(DR-CFG)と、トークン重要度に基づいてクロスアテンションを再重み付け/整列する空間表現アラインメント(SRA)を組み合わせる。
- 複数のベンチマークデータセットにわたる実験により、DAREが生成の忠実性と意味的整合性の両方を改善し、既存手法を上回ることが示されている。



