ヘルスケア・ロボティクスのデータセットとヘルスケア・ロボティクスのための基礎的な物理AIモデル
Introducing Open-H-Embodiment: The first healthcare robotics open dataset, built by a community collaboration
著者: Nigel Nelson, Lukas Zbinden, Mostafa Toloui, Sean Huver
ヘルスケアAIは主に知覚ベースで、信号を解釈して病理/解剖を分類またはセグメントするモデルに焦点を当ててきました。しかし、医療には「実際に行う」作業が伴い、具現化、接触ダイナミクス、閉ループ制御を欠く過去の静的で知覚のみのデータセットは不十分です。この分野には、標準化されたロボット本体、視覚–力–運動学データの同期データ、シム-to-現実のペアリング、そして異なる具現化間のベンチマークが必要であり、それらが物理AIの基盤を築くことになります。
1. Open-H-Embodiment
Open-H-Embodimentは、外科手術ロボティクスと超音波のためのAI自律性と世界基盤モデルを訓練・評価するのに必要な、オープンで共有された基盤を構築する、コミュニティ主導のデータセットの取り組みです。Axel Krieger教授(Johns Hopkins)、Nassir Navab教授(ミュンヘン工科大学)、Mahdi Azizian博士(NVIDIA)を含む運営委員会によって開始され、現在は35の組織にまたがっています。
世界中の参加者が一堂に会し、医療ロボティクスにおける物理AIの推進を目的とした初の大規模データセットを構築しました。
参加者
Balgrist、CMR Surgical、The Chinese University of Hong Kong、Great Bay University、Hong Kong Baptist University、Hamlyn、ImFusion、Johns Hopkins University、Leeds University、Mohamed bin Zayed University of Artificial Intelligence、Moon Surgical、NVIDIA、Northwell Health、Obuda University、The Hong Kong Polytechnic University、Qilu Hospital of Shandong University、Rob Surgical、Sanoscience、Surgical Data Science Collective、Semaphor Surgical、Stanford、Dresden University of Technology、Technical University of Munich、Tuodao、Turin、University of British Columbia、UC Berkeley、UC San Diego、University of Illinois Chicago、University of Tennessee、University of Texas、Vanderbilt、およびVirtual Incision。
データセット
- 778 時間 の CC-BY-4.0 ライセンスの医療ロボティクス訓練データを含み、主に外科ロボティクスのデータですが、超音波と内視鏡の自律データも含みます。
- シミュレーション、ベンチトップ演習(例:縫合)、および実臨床手技を含みます。
- 商用ロボット(CMR Surgical、Rob Surgical、Tuodao)と研究ロボット(dVRK、Franka、Kuka)を使用します。
- このデータを用いて訓練後に公開された、2つの新しい、許容的にオープンソースのモデルとともに公開されました。
2. GR00T-H: 視覚・言語・アクション・モデル(外科ロボティクス用)
最初は GR00T-H、Isaac GR00T N 系列の Vision-Language-Action (VLA) モデルの派生です。約600時間の Open-H-Embodiment データで訓練され、GR00T-H は外科ロボティクス任務の最初のポリシーモデルです。
NVIDIA のオープンソースエコシステムを基盤に、Isaac GR00T-H は Cosmos Reason 2 2B を Vision-Language Model (VLM) のバックボーンとして活用します。
アーキテクチャ設計の選択
外科ロボティクスには高い精度が求められますが、ケーブル駆動型のような特殊なハードウェアは模倣学習 (IL) を難しくします。これを扱うため、GR00T-H は4つの重要な設計選択を採用します:
- 独自のエンボディメント・プロジェクター: 各ロボットの特定の運動学を共有の正規化されたアクション空間へ写像する、独自で学習可能なMLP。
- 状態ドロップアウト(100%): 推論時に固有覚センサ入力を削除して、各システムの学習済みバイアス項を作成し、現実世界での結果を改善します。
- 相対的なエンドエフェクタ(EEF)アクション: 学習は共通の相対的なEEFアクション空間を使用して、運動学的不整合を克服します。
- タスクプロンプト内のメタデータ: 器具名と制御インデックスのマッピングを直接VLMのタスクプロンプトに埋め込みます。
A prototype of GR00T-H has demonstrated the ability to execute a complete, end-to-end suture in the SutureBot benchmark, highlighting robust long-horizon dexterity.
3. Cosmos-H-Surgical-Simulator
Cosmos-H-Surgical-Simulator は、アクション条件付き外科ロボティクスの World Foundation Model (WFM) です。従来のシミュレーターは、ソフト組織、反射、血液、煙などの現実世界の複雑さのために機能しません。
Key Capabilities
- Overcoming the Sim-to-Real Gap: NVIDIA Cosmos Predict 2.5 2B から微調整され、運動学的アクションから直接、物理的に妥当な外科動画を生成します。
- Efficiency Gains: 600 回のロールアウトでは、シミュレーションでわずか 40 分、実世界のベンチトップ法を使用した場合は 2 日 かかりました。
- WFM as a Physics Simulator: データから組織の変形やツールの相互作用を暗黙的に学習します。
- Synthetic Data Generation: 不足データセットを補うため、現実的な合成ビデオ-アクションのペアを生成します。
ファインチューニングの詳細
このモデルは、Open-H-Embodiment データセット(9 ロボット実装、32 データセット)を対象に、64台の A100 GPU を用いて約10,000 GPU時間をかけてファインチューニングされました。統一された44次元のアクション空間を活用します。
4. 次に来るもの: 外科用ロボティクスの推論へ
Open-H-Embodiment のバージョン2 の取り組みの目標は、知覚的制御を超え、推論可能な自律性へと移行すること—外科用ロボット工学の ChatGPT 的瞬間—ここでは、システムが長時間の手術手順を説明し、計画し、適応できるようにすることです。これには、意図、成果、故障モードを捉えた注釈付きタスク・トレースを用いた推論対応データへ Open-H-Embodiment を拡張することが必要です。この取り組みにはコミュニティの参加が不可欠であり、ぜひご関与ください。未来の医療ロボティクスを形作る手助けとして、以下の Open-H GitHub リポジトリ をご活用ください。若しくは Open-H GitHub Repo で未来を共に創りましょう。
5. Get started today
以下のリソースにアクセスして、Open-H-embodiment データセットとモデルの利用を開始してください:
- Open-H-Embodiment: HF データセット / GitHub リポジトリ
- NVIDIA Isaac GR00T-H モデル: HF モデル / GR00T-H GitHub リポジトリ
- NVIDIA Cosmos-H-Surgical-Simulator: HF モデル / GitHub リポジトリ
- Cosmos Cookbook: あなたの体現のために自分自身の WFM を構築するためのステップバイステップのワークフロー
- Hugging Face で探索: Hugging Face と GitHub で新しいオープン Cosmos モデルとデータセットをチェックするか、build.nvidia.com のモデルを試してみてください。



