NVIDIAが手術支援ロボット向けVLAを公開、医療現場にもフィジカルAI

日経XTECH / 2026/4/8

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • NVIDIAはGTC 2026で、手術支援ロボット向けVLA基盤モデル「GR00T-H」を公開し、画像/テキスト指示から縫合などの動作生成を可能にする方向性を示した。
  • GR00T-Hは人型ロボット向けVLA「GR00T N1.6」をベースに、手術・超音波・大腸内視鏡などの臨床処置動画で構成される「Open-H-Embodiment」(700時間超、学習は約600時間)で医療用に学習し直した。
  • 手術領域の物理特性を扱うため、世界基盤モデル「NVIDIA Cosmos」の手術特化版「Cosmos-H-Surgical」(Cosmos Predict/Transferの2系統)を2026年3月に公開した。
  • さらに、手術の初期シーンとロボット動作条件から後続環境を予測する「Cosmos-H-Surgical-Simulator」を提示し、術前計画やロボット訓練への活用を狙っている。

 医療現場にもフィジカルAI(人工知能)の応用が広がっている。米NVIDIA(エヌビディア)は2026年3月16~19日(米国時間)に開催した開発者会議「GTC 2026」において、医療業界に特化した新しい基盤モデルを発表した。手術支援ロボットの研究開発向けVLA(Vision-Language-Action)モデル「GR00T-H」である。

  GR00T-Hは、画像やテキストの指示を入力すると、縫合など手術支援ロボットに必要な動作を生成できる。GR00T-Hは、NVIDIAが2025年12月に公開した人型ロボット向けのVLA「GR00T N1.6」をベースに、医療用ロボット向けのデータセット「Open-H-Embodiment」を学習させた。

 Open-H-Embodimentは外科手術を中心に、超音波検査や大腸内視鏡検査も含む臨床処置の動画データからなる。データセットに含まれる動画は700時間以上に上り、米ジョンズ・ホプキンス大学や独ミュンヘン工科大学など約35の組織がデータの提供に協力した。GR00T-Hが学習したのは、約600時間のOpen-H-Embodimentデータである。

Open-Hデータセットの例
Open-Hデータセットの例
(出所:NVIDIA)
[画像のクリックで拡大表示]

 NVIDIAは手術支援ロボット向けフィジカルAIの実現に向け、世界基盤モデル「NVIDIA Cosmos」の強化にも取り組んでいる。人体内の組織は多種多様な物理的特性を持っており、汎用的な世界基盤モデルで正確に現象を予測するのが難しい。そこで同社は、外科手術に特化した世界基盤モデル「NVIDIA Cosmos-H-Surgical」を2026年3月に公開した。

 Cosmos-H-Surgicalは、NVIDIA Cosmosを構成する「Cosmos Predict」と「Cosmos Transfer」をベースにした2種類がある。Cosmos Predictはテキストや静止画、動画を入力すると未来の状況を予測して動画を出力するモデル。Cosmos Transferはシミュレーターの計算結果を写実的な動画に変換するモデルだ。Cosmos-H-Surgicalではこの2種類のモデルを外科領域に特化させた。

 さらにNVIDIAは、ロボットの動作条件付き世界基盤モデル「Cosmos-H-Surgical-Simulator」も2026年3月に公開している。Cosmos PredictをOpen-H-Embodimentでファインチューニングしたモデルである。手術支援ロボットの動作と手術の初期シーンを入力すると、その後の手術環境を予測する。手術支援ロボットを用いた手術の術前計画やロボット訓練に活用できる。

次のページ

腎結石の手術を支援

この記事は有料会員限定です