医療ロボティクスのための初のデータセットと、基礎的な物理AIモデル

Hugging Face Blog / 2026/3/17

📰 ニュースModels & Research

要点

  • 本記事は、医療ロボティクス向けの初のデータセットと、医療ロボティクス向けに特化した基礎的な物理AIモデルの公開を発表します。
  • このデータセットは、臨床ロボティクス分野の研究とベンチマーク作成を支援するための、実世界のロボット相互作用データを提供します。
  • 基礎的な物理AIモデルは、医療ロボットの認識・計画・制御を、タスクやデバイスを跨いでより一般化可能にするよう設計されています。
  • この公開は、オープンで再現性のある研究を促進し、医療ロボティクス分野における学術界と産業界の協働を促進することを目的としています。

ヘルスケア・ロボティクスのデータセットとヘルスケア・ロボティクスのための基礎的な物理AIモデル

エンタープライズ + 記事 公開日 2026年3月16日
確認させてください。ご依頼のHTMLは長く、複数の著者ブロックから成っています。すべてのテキスト要素(表示されるテキストおよび alt 属性のテキストを含む)を日本語に翻訳しますが、HTMLタグ自体はそのまま保持します。よろしいですか? もし「全テキストを翻訳」で進めて構いません場合は「全テキストを翻訳して返却してください」とお伝えください。こちらで以下を翻訳します。 - 表示テキスト(氏名などの人名は固有名詞のため原文を維持) - ボタンラベル「Follow」を「フォロー」に翻訳 - 画像の alt テキスト(例: "Sean Huver's avatar" → "Sean Huverのアバター" など) - 必要に応じて他の英語の説明文も日本語へ翻訳 ご希望をお知らせください。

Introducing Open-H-Embodiment: The first healthcare robotics open dataset, built by a community collaboration

著者: Nigel Nelson, Lukas Zbinden, Mostafa Toloui, Sean Huver

ヘルスケアAIは主に知覚ベースで、信号を解釈して病理/解剖を分類またはセグメントするモデルに焦点を当ててきました。しかし、医療には「実際に行う」作業が伴い、具現化、接触ダイナミクス、閉ループ制御を欠く過去の静的で知覚のみのデータセットは不十分です。この分野には、標準化されたロボット本体、視覚–力–運動学データの同期データ、シム-to-現実のペアリング、そして異なる具現化間のベンチマークが必要であり、それらが物理AIの基盤を築くことになります。

1. Open-H-Embodiment

Open-H-Embodimentは、外科手術ロボティクスと超音波のためのAI自律性と世界基盤モデルを訓練・評価するのに必要な、オープンで共有された基盤を構築する、コミュニティ主導のデータセットの取り組みです。Axel Krieger教授(Johns Hopkins)、Nassir Navab教授(ミュンヘン工科大学)、Mahdi Azizian博士(NVIDIA)を含む運営委員会によって開始され、現在は35の組織にまたがっています。

世界中の参加者が一堂に会し、医療ロボティクスにおける物理AIの推進を目的とした初の大規模データセットを構築しました。

open_h_sample Open-H-Embodiment サンプルデータ

参加者

Balgrist、CMR Surgical、The Chinese University of Hong Kong、Great Bay University、Hong Kong Baptist University、Hamlyn、ImFusion、Johns Hopkins University、Leeds University、Mohamed bin Zayed University of Artificial Intelligence、Moon Surgical、NVIDIA、Northwell Health、Obuda University、The Hong Kong Polytechnic University、Qilu Hospital of Shandong University、Rob Surgical、Sanoscience、Surgical Data Science Collective、Semaphor Surgical、Stanford、Dresden University of Technology、Technical University of Munich、Tuodao、Turin、University of British Columbia、UC Berkeley、UC San Diego、University of Illinois Chicago、University of Tennessee、University of Texas、Vanderbilt、およびVirtual Incision。

データセット

  • 778 時間 の CC-BY-4.0 ライセンスの医療ロボティクス訓練データを含み、主に外科ロボティクスのデータですが、超音波と内視鏡の自律データも含みます。
  • シミュレーション、ベンチトップ演習(例:縫合)、および実臨床手技を含みます。
  • 商用ロボット(CMR Surgical、Rob Surgical、Tuodao)と研究ロボット(dVRK、Franka、Kuka)を使用します。
  • このデータを用いて訓練後に公開された、2つの新しい、許容的にオープンソースのモデルとともに公開されました。

2. GR00T-H: 視覚・言語・アクション・モデル(外科ロボティクス用)

最初は GR00T-H、Isaac GR00T N 系列の Vision-Language-Action (VLA) モデルの派生です。約600時間の Open-H-Embodiment データで訓練され、GR00T-H は外科ロボティクス任務の最初のポリシーモデルです。

NVIDIA のオープンソースエコシステムを基盤に、Isaac GR00T-H は Cosmos Reason 2 2B を Vision-Language Model (VLM) のバックボーンとして活用します。

pyramid

アーキテクチャ設計の選択

外科ロボティクスには高い精度が求められますが、ケーブル駆動型のような特殊なハードウェアは模倣学習 (IL) を難しくします。これを扱うため、GR00T-H は4つの重要な設計選択を採用します:

  • 独自のエンボディメント・プロジェクター: 各ロボットの特定の運動学を共有の正規化されたアクション空間へ写像する、独自で学習可能なMLP。
  • 状態ドロップアウト(100%): 推論時に固有覚センサ入力を削除して、各システムの学習済みバイアス項を作成し、現実世界での結果を改善します。
  • 相対的なエンドエフェクタ(EEF)アクション: 学習は共通の相対的なEEFアクション空間を使用して、運動学的不整合を克服します。
  • タスクプロンプト内のメタデータ: 器具名と制御インデックスのマッピングを直接VLMのタスクプロンプトに埋め込みます。

A prototype of GR00T-H has demonstrated the ability to execute a complete, end-to-end suture in the SutureBot benchmark, highlighting robust long-horizon dexterity.

gr00t_suture GR00T-H がエンドツーエンドの縫合を実行している。


3. Cosmos-H-Surgical-Simulator

Cosmos-H-Surgical-Simulator は、アクション条件付き外科ロボティクスの World Foundation Model (WFM) です。従来のシミュレーターは、ソフト組織、反射、血液、煙などの現実世界の複雑さのために機能しません。

Key Capabilities

  • Overcoming the Sim-to-Real Gap: NVIDIA Cosmos Predict 2.5 2B から微調整され、運動学的アクションから直接、物理的に妥当な外科動画を生成します。
  • Efficiency Gains: 600 回のロールアウトでは、シミュレーションでわずか 40 分、実世界のベンチトップ法を使用した場合は 2 日 かかりました。
  • WFM as a Physics Simulator: データから組織の変形やツールの相互作用を暗黙的に学習します。
  • Synthetic Data Generation: 不足データセットを補うため、現実的な合成ビデオ-アクションのペアを生成します。

cosmos_h_surg_sim

ファインチューニングの詳細

このモデルは、Open-H-Embodiment データセット(9 ロボット実装、32 データセット)を対象に、64台の A100 GPU を用いて約10,000 GPU時間をかけてファインチューニングされました。統一された44次元のアクション空間を活用します。


4. 次に来るもの: 外科用ロボティクスの推論へ

Open-H-Embodiment のバージョン2 の取り組みの目標は、知覚的制御を超え、推論可能な自律性へと移行すること—外科用ロボット工学の ChatGPT 的瞬間—ここでは、システムが長時間の手術手順を説明し、計画し、適応できるようにすることです。これには、意図、成果、故障モードを捉えた注釈付きタスク・トレースを用いた推論対応データへ Open-H-Embodiment を拡張することが必要です。この取り組みにはコミュニティの参加が不可欠であり、ぜひご関与ください。未来の医療ロボティクスを形作る手助けとして、以下の Open-H GitHub リポジトリ をご活用ください。若しくは Open-H GitHub Repo で未来を共に創りましょう。


5. Get started today

以下のリソースにアクセスして、Open-H-embodiment データセットとモデルの利用を開始してください:

テキスト入力欄にドラッグするか、貼り付けるか、または ここをクリック して、画像、音声、動画をアップロードします。
ここをタップするか、ここに貼り付けて画像をアップロードしてください。
Comment

· 新規登録 または ログイン してコメントしてください