Pretrained Video Models as Differentiable Physics Simulators for Urban Wind Flows

arXiv cs.LG / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、都市の風環境評価に必要な高コストな時間解像CFDの代替として、事前学習ビデオ拡散モデルを「高速かつ微分可能」なサロゲート物理シミュレータとして利用する手法を提案している。
  • WinDiNet(Wind Diffusion Network)は、2BパラメータのLTX-Video(潜在ビデオトランスフォーマ)を、手続き的に生成した建物レイアウトに対する1万件の2D非圧縮CFDで微調整し、112フレームのロールアウトを1秒未満で生成できるとしている。
  • 条件付け機構、VAE適応、物理に基づくデコーダ損失など複数の学習レジメンを体系的に比較し、目的特化のニューラルPDEソルバを上回る構成を特定したと述べている。
  • サロゲートがエンドツーエンドで微分可能であるため、逆問題(都市フットプリント設計の最適化)をバックプロパゲーションで行い、歩行者の快適性と安全性改善を目標に建物配置を直接最適化できるとしている。
  • 単一および複数インレットのケースで、困難な多目的条件下でも有効なレイアウトを発見でき、最終的な改善は真のCFDシミュレーションで確認したと報告している。

Abstract

Designing urban spaces that provide pedestrian wind comfort and safety requires time-resolved Computational Fluid Dynamics (CFD) simulations, but their current computational cost makes extensive design exploration impractical. We introduce WinDiNet (Wind Diffusion Network), a pretrained video diffusion model that is repurposed as a fast, differentiable surrogate for this task. Starting from LTX-Video, a 2B-parameter latent video transformer, we fine-tune on 10,000 2D incompressible CFD simulations over procedurally generated building layouts. A systematic study of training regimes, conditioning mechanisms, and VAE adaptation strategies, including a physics-informed decoder loss, identifies a configuration that outperforms purpose-built neural PDE solvers. The resulting model generates full 112-frame rollouts in under a second. As the surrogate is end-to-end differentiable, it doubles as a physics simulator for gradient-based inverse optimization: given an urban footprint layout, we optimize building positions directly through backpropagation to improve wind safety as well as pedestrian wind comfort. Experiments on single- and multi-inlet layouts show that the optimizer discovers effective layouts even under challenging multi-objective configurations, with all improvements confirmed by ground-truth CFD simulations.