AI Navigate

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

日経XTECH / 3/14/2026

📰 NewsDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

Key Points

  • NVIDIAが動画ベースの世界モデルVAMをリアルタイム実行可能にするDreamZeroを発表、7Hzでの動作を実証した。
  • 38倍の高速化を達成し、従来の1回推論約1秒という遅延を大幅に短縮した。
  • Cosmos Policyに続くVAM/WAMの進化で、動画データのダイナミクス知識を活用しLLMベースのVLAよりデータ量を抑えつつ多様性へ資源を振り分ける設計を示した。
  • モデルから実装・システムレベルまで徹底的な最適化を実現し、ロボット分野でリアルタイム物理AIの実用化に道を開く可能性を示した。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 米NVIDIAがついにロボット向けのフィジカル(Physical)AIで覚醒したような動きを見せている。

 本誌の前号で紹介したように、同社は2026年1月には動画モデル(世界モデル)を基にしたロボット行動生成AI「Cosmos Policy」を発表1)。ここ数年、ロボットAI領域で中心的な役割を果たしてきた先端的なVLA(vision-language-action)モデルの性能に動画ベースの基盤モデル「VAM(video-action model)」が追い付きつつあることを実証したが、今回、またもやVAMについて驚くべき成果を出してきた(図1)。

 動画モデルベースのVAMは、インターネット上の大量の動画で事前学習させてあるため、時間軸方向の変化、いわゆる「ダイナミクス」の知識が豊富なことが最大の特徴だ。動画モデルが「世界モデル(world model)」と呼ばれることに象徴されるように、世の中の光景の移り変わり、変化を予測する能力に秀でている。ダイナミクスの知識が豊富なことから、ロボットAIとして使う際もロボット遠隔操作データは大規模言語モデル(LLM)ベースのVLAと比べて非常に少量で済む(図2)。その分、データの多様性にリソースを振れる(図3)。

 このように良いことずくめのように見える動画ベースのVAMだが、最大の課題は生成に非常に時間が掛かることだった。NVIDIAが開発したVAMの第1弾ともいえる前述のCosmos Policyでは、1回のロボット行動(action)の生成に1秒近くもの時間を要していた。VAMでロボット行動を生成する都度、ロボットの動作が一時停止してしまうようなありさまだった。これではダイナミックなオブジェクトを扱うような用途では使い物にならない。

 しかし、今回、NVIDIAはGPUベンダー・並列処理のプロ集団としての技術力を駆使し、この課題をあっさりクリアした。

図1 140億パラメータの重い動画行動モデルでも7Hzでリアルタイム実行できることを証明
図1 140億パラメータの重い動画行動モデルでも7Hzでリアルタイム実行できることを証明
動画モデル(世界モデル)を基にしたロボット方策「VAM/WAM」は、1回の行動推論に1秒もの時間を要する状況だったが、NVIDIAは高速化・最適化を突き詰め、38倍の高速化を実現。動画ベースのVAM/WAMでも7Hz実行できることを実証した。写真は、NVIDIAのVAMでエレベータボタンを押すタスクをzero-shotで実施している様子。(写真:NVIDIA、S. Ye et al., “World Action Models are Zero-shot Policies,” https://arxiv.org/abs/2602.15922, CC BY 4.0 Attribution 4.0 International https://creativecommons.org/licenses/by/4.0/)
[画像のクリックで拡大表示]

 モデルレベルから実装レベル、システムレベルに至るまで、あらゆるレイヤーでVAMに対して徹底した高速化・最適化を施し、なんとVAMがロボット向けにリアルタイム実行できることを証明したのだ。7Hzもの高速周期で実行できるようにしたのである。その名も「DreamZero」だ2-3)

次のページ

VLAよりVAMを重視し始めたNVIDIA

この記事は日経Robotics購読者限定です