Open-H-Embodiment：医療ロボティクス向け基盤モデルを可能にする大規模データセット

arXiv cs.RO / 2026/4/24

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

本論文は、49以上の施設と複数のロボットプラットフォームにまたがって収集された、運動学（キネマティクス）を同期した医療ロボティクス動画の大規模オープンデータセット「Open-H-Embodiment」を提案しています。
このデータセットは外科的操作、ロボット超音波、内視鏡など複数の手技をカバーし、従来の医療ロボティクス用データが小規模で単一胴体（single-embodiment）に偏り、共有されにくいという課題に対処します。
著者らは、このデータセットが可能にする研究として2つの基盤モデルの学習結果を示しています。これには、縫合ベンチマークで評価されたGR00T-H（視覚×言語×行動モデル）が含まれます。
GR00T-Hは、構造化された縫合ベンチマークにおいて唯一エンドツーエンドでタスク完遂を達成し、29ステップのex vivo縫合シーケンスで平均成功率64%を報告しています。
さらに、Cosmos-H-Surgical-Simulatorとして、単一チェックポイントから多胴体（multi-embodiment）な手術シミュレーションを可能にする、行動条件付きワールドモデルを学習し、インシリコでの方策評価や医療領域向けの合成データ生成にも活用できることを示しています。

要旨: 自律型医療ロボットは、患者の転帰を改善し、提供者の負担を減らし、医療へのアクセスを民主化し、そして人間を超える精度を可能にするという期待を担っています。しかし、自律型医療ロボティクスは根本的なデータ問題によって制約されてきました。すなわち、既存の医療ロボット用データセットは小規模で、単一の身体（エンボディメント）に限られ、またオープンに共有されることが稀であるため、この分野が前進するために必要な基盤モデルの開発が妨げられてきたのです。本研究では、これまでで最大規模となる、同期された運動学（kinematics）を備えた医療ロボット動画のオープンデータセット Open-H-Embodiment を導入します。これは49以上の研究機関にまたがり、CMR Versius、Intuitive Surgical の da Vinci、da Vinci Research Kit（dVRK）、Rob Surgical BiTrack、Virtual Incision の MIRA、Moon Surgical Maestro、ならびに各種のカスタムシステムを含む複数のロボットプラットフォームにまたがります。外科的操作、ロボットによる超音波、内視鏡手技を対象としています。このデータセットが可能にする研究を、2つの基盤モデルによって示します。GR00T-H は、医療ロボティクス向けの最初のオープンな基盤ビジョン・ランゲージ・アクションモデルであり、構造化された縫合ベンチマークにおいてエンドツーエンドでタスクを完全に完了することを達成した唯一の評価済みモデルです（他の全モデルは 0% に対し 25%）。さらに、29ステップからなる ex vivo 縫合シーケンスにおいて平均成功率 64% を達成します。また、Cosmos-H-Surgical-Simulator を学習します。これは単一のチェックポイントから、9つのロボットプラットフォームにまたがる多身体（multi-embodiment）外科シミュレーションを可能にする、最初のアクション条件付き世界モデルです。さらに、このモデルは医療領域におけるインシリコの方策評価（policy evaluation）と合成データ生成をサポートします。これらの結果は、オープンで大規模な医療ロボットのデータ収集が、研究コミュニティにとって重要なインフラとして機能し、ロボット学習、世界モデル化（world modeling）などの進歩を可能にし得ることを示唆しています。