AI Navigate

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

日経XTECH / 3/13/2026

📰 NewsSignals & Early TrendsIndustry & Market MovesModels & Research

Key Points

  • DreamZeroは、14億パラメータ級の動画行動モデルでも7Hzのリアルタイム実行を実証し、従来の1回あたり約1秒の推論を38倍高速化した。
  • 動画ベースの世界モデル(VAM/WAM)は大量の動画データからダイナミクスを学習するため、ロボットの遠隔操作データが少なくて済み、さまざまな状況へ適応性が高まる。
  • モデル→実装→システムの全層で最適化を徹底し、ロボット行動の生成時間を劇的に削減し、リアルタイム実行を実現した。
  • この成果はロボット工学におけるAIの実用性を大きく前進させ、産業界の市場動向と今後の適用拡大に影響を及ぼす可能性が高い。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 米NVIDIAがついにロボット向けのフィジカル(Physical)AIで覚醒したような動きを見せている。

 本誌の前号で紹介したように、同社は2026年1月には動画モデル(世界モデル)を基にしたロボット行動生成AI「Cosmos Policy」を発表1)。ここ数年、ロボットAI領域で中心的な役割を果たしてきた先端的なVLA(vision-language-action)モデルの性能に動画ベースの基盤モデル「VAM(video-action model)」が追い付きつつあることを実証したが、今回、またもやVAMについて驚くべき成果を出してきた(図1)。

 動画モデルベースのVAMは、インターネット上の大量の動画で事前学習させてあるため、時間軸方向の変化、いわゆる「ダイナミクス」の知識が豊富なことが最大の特徴だ。動画モデルが「世界モデル(world model)」と呼ばれることに象徴されるように、世の中の光景の移り変わり、変化を予測する能力に秀でている。ダイナミクスの知識が豊富なことから、ロボットAIとして使う際もロボット遠隔操作データは大規模言語モデル(LLM)ベースのVLAと比べて非常に少量で済む(図2)。その分、データの多様性にリソースを振れる(図3)。

 このように良いことずくめのように見える動画ベースのVAMだが、最大の課題は生成に非常に時間が掛かることだった。NVIDIAが開発したVAMの第1弾ともいえる前述のCosmos Policyでは、1回のロボット行動(action)の生成に1秒近くもの時間を要していた。VAMでロボット行動を生成する都度、ロボットの動作が一時停止してしまうようなありさまだった。これではダイナミックなオブジェクトを扱うような用途では使い物にならない。

 しかし、今回、NVIDIAはGPUベンダー・並列処理のプロ集団としての技術力を駆使し、この課題をあっさりクリアした。

図1 140億パラメータの重い動画行動モデルでも7Hzでリアルタイム実行できることを証明
図1 140億パラメータの重い動画行動モデルでも7Hzでリアルタイム実行できることを証明
動画モデル(世界モデル)を基にしたロボット方策「VAM/WAM」は、1回の行動推論に1秒もの時間を要する状況だったが、NVIDIAは高速化・最適化を突き詰め、38倍の高速化を実現。動画ベースのVAM/WAMでも7Hz実行できることを実証した。写真は、NVIDIAのVAMでエレベータボタンを押すタスクをzero-shotで実施している様子。(写真:NVIDIA、S. Ye et al., “World Action Models are Zero-shot Policies,” https://arxiv.org/abs/2602.15922, CC BY 4.0 Attribution 4.0 International https://creativecommons.org/licenses/by/4.0/)
[画像のクリックで拡大表示]

 モデルレベルから実装レベル、システムレベルに至るまで、あらゆるレイヤーでVAMに対して徹底した高速化・最適化を施し、なんとVAMがロボット向けにリアルタイム実行できることを証明したのだ。7Hzもの高速周期で実行できるようにしたのである。その名も「DreamZero」だ2-3)

次のページ

VLAよりVAMを重視し始めたNVIDIA

この記事は日経Robotics購読者限定です