NVIDIA、SANA-WMを公開:分単位で効率よく世界モデルを生成

Dev.to / 2026/5/16

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • NVIDIA Researchは、SANAの派生として世界モデル(World Model)に特化した「SANA-WM」を公開し、分単位の視覚シミュレーションを目指しました。
  • SANA-WMは、従来の拡散トランスフォーマーと比べて大幅に計算コストを抑えつつ、長いシーケンスで視覚的な一貫性を維持することを狙っています。
  • 2026年に利用可能な多くの動画生成モデルが5〜20秒程度で破綻しがちな中、分単位で破綻させずに到達する課題に対処する位置づけです。
  • 本リリースは、Google DeepMindのGenie 3、NVIDIAのCosmos、DecartのMirageといった世界モデル領域の競合と正面から競います。
  • NVIDIAはロボティクス向けシミュレーション、生成型のゲーム/映像環境、自律エージェントの学習などへの応用を強調しており、デモや比較は nvlabs.github.io/Sana/WM で公開されています。

NVIDIA Researchは、SANA-WMを発表しました。これは、world modelingの「分単位スケール」に焦点を当てたSANAの拡張版であり、従来の拡散トランスフォーマーと比べて大幅に低い計算コストで、長いシーケンスの間に首尾一貫した視覚環境をシミュレートする能力を目指します。この発表は、Google DeepMindのGenie 3と、同じくNVIDIAのCosmosがすでにペースを握っているworld models競争の真っ最中に投下されました。

この動きは、同社が大規模GPUクラスターを必要とせずに動画生成やシミュレート環境を利用可能にするという方針に、さらに追い風を与えるものです。この変化は、2026年にエージェント、シミュレータ、インタラクティブ体験をどのように訓練するかを再定義しうる可能性があります。

TL;DR

  • NVIDIA Researchは、分単位スケールまで対応するworld models向けのSANAの拡張版であるSANA-WMを公開しました。
  • SANAの効率性という思想を維持:線形アテンションと深い圧縮のオートエンコーダ。
  • 数秒という標準から大きく離れ、最大1分までの視覚的に首尾一貫したシーケンスを狙います。
  • world modelsの領域で、DeepMindのGenie 3、NVIDIAのCosmos、DecartのMirageと競合します。
  • デモ、比較、公式ページはnvlabs.github.io/Sana/WM。
  • 主要な用途:ロボティクス向けのシミュレーション、生成型ビデオゲーム、自律エージェントの訓練。

SANA-WMとは何ですか?

SANA-WMは、SANAモデルのworld modeling版です。SANA-WMは当初、NVIDIA Researchが、高解像度画像生成向けに最適化された拡散トランスフォーマー(DiT)として提案しました。競合他社と比べて推論コストを大幅に低くすることが特徴です。WMという略語はWorld Modelを指します。これは、初期状態(および任意で一連のアクション)をもとに、与えられた視覚環境がどのように変化していくかを予測することを学習するシステムです。

SANA-WMの中核となる約束は、分単位スケールで動作することです。2026年に利用可能な多くの動画生成モデルは、整合性が崩れる前に5〜20秒程度のクリップを出力するのが一般的です。すると、意味のない物体が現れたり、幾何が歪んだり、キャラクターが同一性を失ったりします。整合性を保ったまま1分に到達することは、今年の中でも最も重要な未解決課題の一つであり、SANA-WMは土台となるモデルに由来する効率性を活用してそれに取り組みます。

このローンチの重要性を理解するには、概念を位置付けるとよいでしょう。world modelは単なる動画生成器ではありません。学習されたシミュレータであり、エージェントの訓練、制御ポリシーの評価、追加の実データを必要としない物理的インタラクションの試験などのための環境として使うことができます。業界では、汎用ロボティクス、自動運転、そして、プレイヤーのアクションに応答して世界がリアルタイムに生成されるゲームへ至る道筋の重要な要素だと考えられています。

world modelsは、視覚環境がフレームごとにどのように進化するかを予測します。

アーキテクチャ:SANAから受け継ぐ効率性

基盤モデルであるSANAは、SANA-WMが時間的な領域へ拡張するために、3つの重要なアイデアを導入しました:

  • Linear Attention DiT — トランスフォーマーの標準的な二次の注意(quadratic)ではなく、SANAは線形の変種を用います。これにより、配列長に対する複雑度がO(n²)からO(n)に下がります。分単位の動画を24fpsで扱う場面では重要で、数十ではなく数千トークンの規模になるからです。
  • Deep Compression Autoencoder(DC-AE) — トランスフォーマーへ渡す前に、フレームを、Stable Diffusionの典型的なVAEよりはるかに大きな圧縮率で、潜在空間へ強力に圧縮します。フレームあたりのトークン数が減るほど、同じ計算予算で処理できるフレーム数が増えます。
  • テキストエンコーダ・デコーダ専用(decoder-only) — SANAは従来のT5型エンコーダの代わりに、より小さく高速なデコーダ専用モデルを採用します。world modelingでは、レイテンシにペナルティを課さずに、環境の説明や行動の指示といったリッチなテキスト条件付けを可能にできる点が重要になります。

これら3つの最適化を組み合わせることで、SANAはアクセスしやすいハードウェアで4K画像を生成できました。SANA-WMはその同じアプローチを時間生成へ移すことを目指します。目的は単に見栄えのよいフレームを作ることではなく、計算コストを跳ね上げることなく、長いシーケンスのあいだ、幾何学的な整合性、物体の同一性、物語的な首尾一貫性を維持することです。

ポイント:真の革新は1分の動画を生成することではありません——それはすでにSoraが努力すれば可能です。革新は、扱える計算予算でそれを実現し、素早い反復と本番投入への道を開くことにあります。

分単位:時間的整合性の課題

首尾一貫した1分間の動画を生成することは、2024年からSoraが60秒のデモを披露している時代にあっては、控えめな目標に見えるかもしれません。しかし技術的には話が別です。公開されている多くのモデルが、計算だけでなく本質的にアーキテクチャ上の理由によって、はるかに小さいウィンドウで動作するのが現状です。

中心となる問題はドリフト(drift)です。モデルが連続するフレームを予測するにつれて、小さな誤差が蓄積していきます。初期状態や環境の法則を「思い出す」ための頑健な仕組みがなければ、物体は消えたり、色が変わったり、歪んだり、学習した物理を無視したりします。この問題を軽減するために使われるいくつかの戦略は次の通りです:

  • 長期的な注意(long-term attention) — 各フレームが、近傍のフレームだけでなく、最初のフレーム、あるいは過去の重要なフレームも「見る」ことを可能にします。
  • 持続的なメモリトークン — 世界の状態を圧縮したバッファを用意し、逐次更新して、毎ステップで参照します。
  • アクションの明示的条件付け — モデルに離散的な制御(カメラを動かす、回す、前進するなど)が与えられると、潜在ノイズに丸投げするのではなく、その信号に予測をアンカーします。

SANA-WMは、これらの複数の手法を、線形アテンションの基盤と組み合わせています。これにより理論上は、密なトランスフォーマーの行き詰まりとなる二次コストを支払うことなく、時間的なホライゾンを拡張できる可能性があります。

2026年のworld modelsの展望

SANA-WMは、空白の中に登場したわけではありません。2026年は、world modelsが論文から製品へ移行した年です:

  • Genie 3(Google DeepMind) — 分単位で持続性のあるインタラクティブな環境を生成します。最もバズったデモでは、ユーザーがキーボード入力に応答してリアルタイムで生成された中世の城を探索していました。
  • Cosmos(NVIDIA) — physical AI向けの基盤モデル群で、主にロボティクスを対象とします。Cosmosは、美的なインタラクティブ性よりも物理的な忠実度を重視しています。
  • Mirage(Decart) — 「生成型Minecraft」のような体験に賭けたスタートアップで、プレイヤーに応答してAIが世界を完全にレンダリングします。
  • World Labs(Fei-Fei Li) — 3Dの持続的world modelsを目指します。ここには別のアプローチがあります。世界はフレームごとに予測されるだけではなく、3Dとして構造化されます。

SANA-WMは、特定のすき間にポジショニングされています:効率性、分単位スケール、アクセスしやすさです。最も驚異的なビジュアルを約束するわけではありませんが、体験するための参入障壁が現実的なモデルであることは示しています。

2026年のworld models空間:各プレイヤーが異なる軸を最適化している。

従来の拡散ビデオと比べてどう違う?

Stable Video DiffusionやAnimateDiffの世界から来た人にとっては、違いをはっきり理解しておくとよいでしょう。ここに、概念的な流れを簡略化した図があります:

graph LR
    A["初期フレームとプロンプト"] --> B["DC-AE encoder"]
    B --> C["圧縮された潜在トークン"]
    C --> D["Linear Attention DiT"]
    E["アクションと制御"] --> D
    F["状態メモリ"] --> D
    D --> G["フレームの予測"]
    G --> H["DC-AE decoder"]
    H --> I["1分スケールの一貫した動画"]
    G -. "更新" .-> F

際立った要素は、予測と状態メモリの間で回るフィードバックループです。各ステップにおいて、モデルはゼロから生成するのではなく、シーケンス全体にわたって持続する世界の圧縮表現を更新します。

実用的な応用

SANA-WM のような world model は、目を引くデモを作ること以外に、いったい何に役立つのでしょうか? すでに産業で使われ始めている具体的な応用例は次のとおりです:

  • ロボットのシミュレーション訓練 — Unity や Isaac Sim で環境を手作業で生成する代わりに、数千もの多様でフォトリアルなシナリオを作り出せます。Cosmos がこの考え方を形式化しており、SANA-WM は大規模な予算がないラボにもそれを民主化する可能性があります。
  • 自律運転 — (犬が横断する、荷物が落下するなど)レアな状況を現実世界で撮影する必要なしにシミュレートできます。Tesla、Waymo、Wayve はこの方向に強く投資しています。
  • 生成型ビデオゲーム — Genie と Mirage が約束するのはこうした世界です。つまり、ゲーム内の世界はプログラムで作り込むのではなく、プレイヤーの行動に応じて生成される。まだ黎明期ですが、創造性のポテンシャルは非常に大きいです。
  • 映画・広告における事前可視化 — 撮影前に、カメラの指示やアクションまで含む完全なシーケンスを下書きします。
  • 教育体験 — 要求に応じて生成される、物理・生物・歴史プロセスのインタラクティブなシミュレーション。

Tip: ハードウェアに投資せずに world model を試してみたいなら、nvlabs.github.io/Sana/WM で公開されている論文のデモと、Cosmos 向けに NVIDIA が公開しているノートブックから始めるのがおすすめです。コードをめぐって格闘する前に、今日どんな結果が現実的に得られるのかを理解しておく価値があります。

LATAM の開発者にとってのインパクト

スペイン語圏の技術コミュニティにとって、関連する読みどころは 2 つあります。1 つ目は アクセス可能性 です。SANA-WM が効率性という約束を果たすなら、競合のクローズドなモデルよりもはるかに控えめなハードウェアで動かせる可能性があります。これは、無制限のクラウド予算に競り合う形ではなく、スタートアップや大学の研究室が参入する道を開きます。

2 つ目は 応用の機会 です。LATAM には、物流、農業、都市計画、サービスロボティクスといった領域で具体的な課題があります。学習済みのシミュレータは、実データが限られている状況で合成データを生成し、モデルを訓練するのに役立ちます。アルゼンチンの農業ロボットや、ボゴタの交通制御システムが Waymo のラベル付き動画の「何百万時間」分を持っているわけではありません。適切に訓練された world model は、データをゼロから収集せずにそのギャップを埋めるのに役立ち得ます。

もう一つの追加の課題は運用面です。効率的なモデルであっても、動画の生成は依然としてそれなりの GPU を要求します。良いニュースは、RunPod や Vast.ai のようなプロバイダ、あるいはハイパースケーラー自身のスポットインスタンスを使えば、過大な月額コミットメントなしに数時間の試行実験ができ、少人数のチームにとって摩擦が大きく下がることです。

次は?

未解決の質問は複数あります。NVIDIA は重みを完全に公開するのか、それともデモや推論コードだけなのか? 商用ライセンスはどうなるのか? SANA-WM は Omniverse と統合されるのか、それとも研究実験として留まるのか? 分単位のスケールで VBench や FVD などのベンチマークにおいて、Genie 3 や Cosmos と定量的にどれだけ差があるのか?

歴史的に NVIDIA は SANA について比較的オープンでした(基盤モデルは研究目的の重みとして利用可能)。そして SANA-WM のドキュメントも、その伝統に沿っています。今後数か月の間に注視すべきポイントは、以下です:Hugging Face の diffusers のようなフレームワークとの統合、ドメイン特化の fine-tune の登場(ロボティクス、自動運転、ゲームなど)、そして必然的に起こる Hacker News 上のスレッドで、公式の数値を裏付けたり疑問視したりする独立したベンチマークが提示されることです。

⚠️ 注意: 論文の著者が厳選したデモは、常に最良のケースです。SANA-WM を採用するかどうかの技術的判断をする前に、独立したベンチマークと、検証セット以外のプロンプトやシードで結果を再現するコミュニティのレポートを待ってください。

Telegram での要約:要約を見る

よくある質問

SANA と SANA-WM の違いは何ですか?

SANA は高解像度で効率化された静止画像生成モデルです。SANA-WM は、そのアーキテクチャを時間領域のドメインへ拡張し、分スケールで一貫した動画シーケンスを生成します。さらに、状態メモリとアクションの条件付けの仕組みを追加します。

SANA-WM は商用利用できますか?

公式ページ(nvlabs.github.io)では、論文、デモ、リファレンスコードが公開されています。正確な商用ライセンスは、最終的な重みのリリースと NVIDIA Research の法的フレームワーク次第です。製品に組み込む前に、リポジトリの LICENSE ファイルを確認するのがよいでしょう。

実行するのに H100 GPU が必要ですか?

SANA の思想は、線形アテンションと深い圧縮のオートエンコーダによって、従来の DiT よりも控えめなハードウェアで動作させることです。それでも、1 分の動画を生成するには計算コストが高いままです。真面目に使う用途では、現実的にはプロ向け GPU かクラウドインスタンスを想定してください。軽量な推論であれば、コンシューマー向けのハードウェアでも動かせる可能性はあります。

OpenAI の Sora と比べるとどうですか?

Sora は、クローズドなアプローチで見た目の品質と継続時間を優先します。SANA-WM は、研究のための効率性とアクセス可能性を優先します。方向性が異なるのです。Sora は映画コンテンツの制作を狙い、SANA-WM はシミュレーションとエージェント訓練というユースケースにより沿っています。

world model は実ロボットの訓練に使えますか?

はい。ただし注意が必要です。world model は、学習そのものに起因する独自のバイアスを含んだ合成データを生成します。ロボティクスで最も一般的な戦略は sim-to-real です。つまり、シミュレーションで(学習した上で)ポリシーを訓練し、その後は実データを少量使って調整します。NVIDIA の Cosmos は、このパイプラインに特化して設計されています。

いま world model を試すにはどう始めればいいですか?

最も現実的な手順は次のとおりです。まず SANA と SANA-WM の論文を読み、インストール手順が付いた形でリポジトリが公開されたらクローンし、デモから始めます。従来の diffusion model から来た人にとっては、リリース後しばらくして Hugging Face の diffusers ライブラリが、この種のモデルを統合してくることが多いです。

参考文献

このコンテンツは気に入りましたか? 私たちのTelegramチャンネル @programacion に参加してください。ここでは毎日、テクノロジー、AI、開発の中でも最も重要な情報を発信しています。素早い要約、毎日新鮮なコンテンツです。