ビデオから時間的に手術を地図化するためのビジョン・ラングエージモデルとプラットフォーム

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本研究では、外科手術ビデオから時間的に手術行動を地図化するためのビジョン・ラングエージモデル「Halsted」を提案し、従来の単一手技内の限られた行動成分しか扱えない課題に取り組む。
Halstedは「Halsted Surgical Atlas（HSA）」で学習され、自己ラベリングの反復フレームワークにより8つの外科専門領域で650,000本超のビデオを含む大規模な注釈付きライブラリを基盤としている。
ベンチマーク向けにHSAのサブセット「HSA-27k」を公開し、従来の最先端モデルを上回る手術活動のマッピング性能と、より高い計算効率を示す。
外科AIの臨床導入までの「翻訳（translational）ギャップ」を埋めるために、Halsted Webプラットフォームを開発し、現場の手術者が自分の手技を数分で自動マッピングできる仕組みを提供する。

Abstract

手術ナビゲーション（マッピング）は、手術の運用指針を発展させ、自律型ロボット手術を可能にする上で基本となる。近年、人工知能（AI）によって動画から外科医の行動をマッピングすることに有望な進展が示されているが、現在のモデルは対象範囲が狭く、単一の手術手技内で捉えられる行動要素が限られている。また、モデルが実際に手術を行う外科医にとって利用不可能であるため、翻訳（臨床への応用）における価値も限定的である。ここでは、8つの外科専門領域にまたがり反復的な自己ラベリング枠組みによって育成された、最も包括的な注釈付き動画ライブラリの一つであるHalsted Surgical Atlas（HSA）で訓練した、視覚言語モデルHalstedを導入する。ベンチマークを促進するために、Halsted Surgical AtlasのサブセットであるHSA-27kを公開する。Halstedは、外科的活動のマッピングにおいて従来の最先端モデルを上回り、より高い包括性と計算効率も提供する。外科AIの長年にわたる翻訳上のギャップを埋めるため、我々は外科医が世界のどこからでも、これまで利用できなかった能力として、自身の手技を数分で自動的にマッピングできるようにするHalstedウェブプラットフォーム（https://halstedhealth.ai/）を開発する。非構造化の手術動画データを標準化し、これらの能力を外科医に直接提供することで、本研究は外科AIを臨床での導入にさらに近づけ、自律型ロボット手術に向けた道筋を切り開くのに役立つ。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

日経XTECH

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

ブラウザだけで完結する運転免許証OCRデモを作ってみた

Qiita

ビデオから時間的に手術を地図化するためのビジョン・ラングエージモデルとプラットフォーム

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

ブラウザだけで完結する運転免許証OCRデモを作ってみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer