拡散学習において、すべてのトークンが同等に寄与するわけではない

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストからビデオへの条件付き拡散モデルにおいて、推論時に意味的に重要なトークンが無視され得ることを示し、特にクラシファイアフリーガイダンスでは、バイアスのかかった、または不完全な生成につながることがあると結論づけている。
問題の要因として、2つのドライバを挙げている。すなわち、学習データにおける長い裾をもつトークン頻度分布によるバイアスと、クロスアテンションにおける空間的な位置ずれであり、情報を持つトークンが意味の薄いトークンに圧倒されてしまう。
これを解決するために、著者らはDAREを提案する。DAREは、トークン寄与の偏りを是正する分布整流クラシファイアフリーガイダンス（DR-CFG）と、トークン重要度に基づいてクロスアテンションを再重み付け／整列する空間表現アラインメント（SRA）を組み合わせる。
複数のベンチマークデータセットにわたる実験により、DAREが生成の忠実性と意味的整合性の両方を改善し、既存手法を上回ることが示されている。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH