米NVIDIAがついにロボット向けのフィジカル(Physical)AIで覚醒したような動きを見せている。
本誌の前号で紹介したように、同社は2026年1月には動画モデル(世界モデル)を基にしたロボット行動生成AI「Cosmos Policy」を発表1)。ここ数年、ロボットAI領域で中心的な役割を果たしてきた先端的なVLA(vision-language-action)モデルの性能に動画ベースの基盤モデル「VAM(video-action model)」が追い付きつつあることを実証したが、今回、またもやVAMについて驚くべき成果を出してきた(図1)。
動画モデルベースのVAMは、インターネット上の大量の動画で事前学習させてあるため、時間軸方向の変化、いわゆる「ダイナミクス」の知識が豊富なことが最大の特徴だ。動画モデルが「世界モデル(world model)」と呼ばれることに象徴されるように、世の中の光景の移り変わり、変化を予測する能力に秀でている。ダイナミクスの知識が豊富なことから、ロボットAIとして使う際もロボット遠隔操作データは大規模言語モデル(LLM)ベースのVLAと比べて非常に少量で済む(図2)。その分、データの多様性にリソースを振れる(図3)。
このように良いことずくめのように見える動画ベースのVAMだが、最大の課題は生成に非常に時間が掛かることだった。NVIDIAが開発したVAMの第1弾ともいえる前述のCosmos Policyでは、1回のロボット行動(action)の生成に1秒近くもの時間を要していた。VAMでロボット行動を生成する都度、ロボットの動作が一時停止してしまうようなありさまだった。これではダイナミックなオブジェクトを扱うような用途では使い物にならない。
しかし、今回、NVIDIAはGPUベンダー・並列処理のプロ集団としての技術力を駆使し、この課題をあっさりクリアした。
モデルレベルから実装レベル、システムレベルに至るまで、あらゆるレイヤーでVAMに対して徹底した高速化・最適化を施し、なんとVAMがロボット向けにリアルタイム実行できることを証明したのだ。7Hzもの高速周期で実行できるようにしたのである。その名も「DreamZero」だ2-3)。
次のページ
VLAよりVAMを重視し始めたNVIDIAこの記事は日経Robotics購読者限定です

