概要: テキストから動画への拡散モデルの近年の著しい進歩により、それらの生成を制御することへの関心が高まっている。制御の一般的な方法は、境界ボックスやレイアウトを用いることだ。しかし、これらの制御入力への適合を厳密に守らせることは依然として未解の問題である。本研究では、ユーザーが提供した境界ボックスをわずかに調整することで、生成の品質と制御入力への適合性の両方を改善できることを示す。これは、動画拡散モデルの内部アテンションマップとより一致するように境界ボックスを単純に最適化し、前景と背景の焦点を慎重にバランスさせることで実現される。ある意味、私たちはモデルが馴染みのある場所に境界ボックスを置くように変更している。驚くべきことに、わずかな修正でも生成の品質は大きく変動することがある。これを行うために、境界ボックスの位置を微分可能にする滑らかなマスクと、境界ボックスを変更するために用いるアテンション最大化の目的関数を提案する。私たちは、方法の有効性を検証するためのユーザー調査を含む徹底的な実験を行いました。私たちのコードは、コミュニティの今後の研究を促進するため、プロジェクトのウェブページで公開されています。
小さな調整で動画生成モデルをユーザーの意図に適合させる
arXiv cs.CV / 2026/3/23
📰 ニュースModels & Research
要点
- 論文は境界ボックスを介してテキストから動画生成モデルを制御する方法を調査し、これらのボックスに対する小さな調整が生成品質と入力条件への適合性の両方を改善できることを示している。
- 滑らかなマスクを用いた微分可能な境界ボックス表現と、モデル内部のアテンションマップに基づいてボックス配置を最適化するアテンション最大化の目的を導入し、前景と背景の強調をバランスさせる。
- 著者らは、境界ボックスの小さな変更が出力品質と制御忠実度に大きな差を生むことを示し、広範な実験とユーザー調査によって検証された。
- この研究には、さらなる研究とコミュニティの普及を促進するため、プロジェクトのウェブページでコードを公開することが含まれている。


