広告

SHANDS:外科手のジェスチャーおよびエラー認識のための医療トレーニングに向けたマルチビュー・データセットとベンチマーク

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、医療トレーニングにおけるAI駆動の手のジェスチャー評価および研修生のエラー検出を支援する、大規模なマルチビュー外科手術動画データセットSurgical-Hands(SHands)を提案する。
  • SHandsは、補完的な視点から同期された5台のRGBカメラで撮影され、52人の参加者(専門家と研修生)を含み、15のジェスチャープリミティブに対するフレーム単位の注釈を提供する。
  • データセットには、専門家が検証した研修生エラーの8種類からなる分類体系が組み込まれており、単に正しいパフォーマンスに基づく評価ではなく、ジェスチャー認識と自動エラー検出の両方を可能にする。
  • シングルビュー、マルチビュー、およびクロスビューの汎化に関する標準化された評価プロトコルを定義し、複数の深層学習アプローチに対するベンチマークを行って基準(ベースライン)を確立する。
  • データセットは公開されており、臨床的にキュレーションされた知識に基づく外科教育のための、頑健でスケーラブルなコンピュータビジョン・システム開発を加速する。

Abstract

医学生の外科トレーニングにおける技能の習熟形成は、専門家が主導する技能評価に依存しているが、その評価はコストが高く、時間的な制約があり、大規模化が難しく、専門性が利用可能な専門家を有する施設に限定されてしまう。自動化されたAIベースの評価は現実的な代替手段になり得るが、現実的な受講者の誤りを含むデータセットの不足、および堅牢なコンピュータビジョン手法を学習するために必要な多視点の多様性の不足により進展が制限されている。このギャップに対処するため、医療トレーニング向けの外科手のジェスチャーと誤り認識のための大規模マルチビュー映像データセットであるSurgical-Hands(SHands)を提案する。\textsc{SHands}は、補完的な視点から5台のRGBカメラを用いて、直線状の切開と縫合を撮影し、52名の参加者(20名の専門家と32名の受講者)が、各手技につき3つの標準化された試行をそれぞれ完了する。映像はフレーム単位で15のジェスチャープリミティブで注釈付けされており、受講者の誤りタイプ8種類について検証済みの分類体系を含むため、ジェスチャー認識と誤り検出の両方が可能である。さらに、単一視点・多視点・視点間の一般化に対する標準化された評価プロトコルを定義し、本データセット上で最先端の深層学習モデルをベンチマークする。SHandsは公開されており、臨床的にキュレーションされた領域知識に基づく外科トレーニングのための、堅牢でスケーラブルなAIシステムの開発を支援する。

広告