ScrollScape:ビデオ拡散プライオリを用いて32K画像生成を可能にする

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ScrollScapeは、拡散ベースの超高解像度・極端なアスペクト比(EAR)画像合成における重要な失敗モード――物体の反復や空間の断片化といった壊滅的な構造崩壊――を、従来のテキスト対画像学習で空間プライオリが不十分であることに起因すると捉えることで解決します。
  • この枠組みは、EAR画像生成を連続的な動画生成問題へと変換し、長距離にわたる構造を保持するためのグローバル制約として動画の時間的な一貫性を用います。
  • 「ScanPE」は「移動カメラ」メカニズムにより動画フレーム間でグローバル座標を分配し、「ScrollSR」は動画超解像プライオリを適用して、メモリのボトルネックを回避しつつ前例のない32K解像度に到達します。
  • ScrollScapeは厳選した3Kのマルチ比率データセットで微調整され、既存の画像拡散ベースラインに対して強力な性能を示します。特に、深刻な局所アーティファクトを大幅に抑え、ドメインをまたいでグローバルな整合性と視覚的忠実性を向上させます。
  • 全体として本研究は、時間に根ざした動画プライオリによって空間的に難しい画像タスクを再パラメータ化することで、より頑健に大域構造を保てるという、極端規模の画像生成に関する一般的な戦略を示唆しています。

要旨: 拡散モデルは従来の寸法の画像生成において優れていますが、極端なアスペクト比(EAR)で超高解像度の映像を合成しようとすると、物体の反復や空間の断片化といった致命的な構造的破綻がしばしば発生します。この制約は根本的に、頑健な空間事前知識(空間プライオル)が不足していることに起因しています。というのも、静的なテキストから画像へのモデルは主として、従来の寸法をもつ画像分布で学習されているからです。このボトルネックを克服するために、私たちは ScrollScape という新しい枠組みを提示します。EAR 画像合成を、2つの中核的な革新によって連続的な動画生成プロセスへと作り替えることで実現します。巨大なキャンバスの空間的な拡大を動画フレームの時間的な推移へと対応付けることで、ScrollScape は動画モデルが本来備えている時間的な一貫性を、長距離にわたる構造的整合性を保証する強力なグローバル制約として活用します。具体的には、走査位置エンコーディング(Scanning Positional Encoding: ScanPE)がフレーム間にグローバル座標を分散して、柔軟に動くカメラとして機能させます。一方で、Scrolling Super-Resolution(ScrollSR)は動画の超解像の事前知識を活用してメモリのボトルネックを回避し、前例のない 32K 解像度まで効率的にスケールさせます。厳選した 3K のマルチレシオ画像データセットで微調整することで、ScrollScape は EAR 生成タスクに対して事前学習済みの動画プライオルを効果的に整合させます。広範な評価により、本手法が、深刻な局所的アーティファクトを排除することで、既存の画像拡散ベースラインを大幅に上回ることが示されます。したがって、本手法は内在する構造的ボトルネックを克服し、極端なスケールにおいても、多様な領域で優れたグローバルな整合性と視覚的忠実性を保証します。