ビデオから時間的に手術を地図化するためのビジョン・ラングエージモデルとプラットフォーム

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本研究では、外科手術ビデオから時間的に手術行動を地図化するためのビジョン・ラングエージモデル「Halsted」を提案し、従来の単一手技内の限られた行動成分しか扱えない課題に取り組む。
  • Halstedは「Halsted Surgical Atlas(HSA)」で学習され、自己ラベリングの反復フレームワークにより8つの外科専門領域で650,000本超のビデオを含む大規模な注釈付きライブラリを基盤としている。
  • ベンチマーク向けにHSAのサブセット「HSA-27k」を公開し、従来の最先端モデルを上回る手術活動のマッピング性能と、より高い計算効率を示す。
  • 外科AIの臨床導入までの「翻訳(translational)ギャップ」を埋めるために、Halsted Webプラットフォームを開発し、現場の手術者が自分の手技を数分で自動マッピングできる仕組みを提供する。

Abstract

手術ナビゲーション(マッピング)は、手術の運用指針を発展させ、自律型ロボット手術を可能にする上で基本となる。近年、人工知能(AI)によって動画から外科医の行動をマッピングすることに有望な進展が示されているが、現在のモデルは対象範囲が狭く、単一の手術手技内で捉えられる行動要素が限られている。また、モデルが実際に手術を行う外科医にとって利用不可能であるため、翻訳(臨床への応用)における価値も限定的である。ここでは、8つの外科専門領域にまたがり反復的な自己ラベリング枠組みによって育成された、最も包括的な注釈付き動画ライブラリの一つであるHalsted Surgical Atlas(HSA)で訓練した、視覚言語モデルHalstedを導入する。ベンチマークを促進するために、Halsted Surgical AtlasのサブセットであるHSA-27kを公開する。Halstedは、外科的活動のマッピングにおいて従来の最先端モデルを上回り、より高い包括性と計算効率も提供する。外科AIの長年にわたる翻訳上のギャップを埋めるため、我々は外科医が世界のどこからでも、これまで利用できなかった能力として、自身の手技を数分で自動的にマッピングできるようにするHalstedウェブプラットフォーム(https://halstedhealth.ai/)を開発する。非構造化の手術動画データを標準化し、これらの能力を外科医に直接提供することで、本研究は外科AIを臨床での導入にさらに近づけ、自律型ロボット手術に向けた道筋を切り開くのに役立つ。

ビデオから時間的に手術を地図化するためのビジョン・ラングエージモデルとプラットフォーム | AI Navigate