医療現場にもフィジカルAI(人工知能)の応用が広がっている。米NVIDIA(エヌビディア)は2026年3月16~19日(米国時間)に開催した開発者会議「GTC 2026」において、医療業界に特化した新しい基盤モデルを発表した。手術支援ロボットの研究開発向けVLA(Vision-Language-Action)モデル「GR00T-H」である。
GR00T-Hは、画像やテキストの指示を入力すると、縫合など手術支援ロボットに必要な動作を生成できる。GR00T-Hは、NVIDIAが2025年12月に公開した人型ロボット向けのVLA「GR00T N1.6」をベースに、医療用ロボット向けのデータセット「Open-H-Embodiment」を学習させた。
Open-H-Embodimentは外科手術を中心に、超音波検査や大腸内視鏡検査も含む臨床処置の動画データからなる。データセットに含まれる動画は700時間以上に上り、米ジョンズ・ホプキンス大学や独ミュンヘン工科大学など約35の組織がデータの提供に協力した。GR00T-Hが学習したのは、約600時間のOpen-H-Embodimentデータである。
NVIDIAは手術支援ロボット向けフィジカルAIの実現に向け、世界基盤モデル「NVIDIA Cosmos」の強化にも取り組んでいる。人体内の組織は多種多様な物理的特性を持っており、汎用的な世界基盤モデルで正確に現象を予測するのが難しい。そこで同社は、外科手術に特化した世界基盤モデル「NVIDIA Cosmos-H-Surgical」を2026年3月に公開した。
Cosmos-H-Surgicalは、NVIDIA Cosmosを構成する「Cosmos Predict」と「Cosmos Transfer」をベースにした2種類がある。Cosmos Predictはテキストや静止画、動画を入力すると未来の状況を予測して動画を出力するモデル。Cosmos Transferはシミュレーターの計算結果を写実的な動画に変換するモデルだ。Cosmos-H-Surgicalではこの2種類のモデルを外科領域に特化させた。
さらにNVIDIAは、ロボットの動作条件付き世界基盤モデル「Cosmos-H-Surgical-Simulator」も2026年3月に公開している。Cosmos PredictをOpen-H-Embodimentでファインチューニングしたモデルである。手術支援ロボットの動作と手術の初期シーンを入力すると、その後の手術環境を予測する。手術支援ロボットを用いた手術の術前計画やロボット訓練に活用できる。
次のページ
腎結石の手術を支援この記事は有料会員限定です





