Event-Level Detection of Surgical Instrument Handovers in Videos with Interpretable Vision Models

arXiv cs.CV / 4/10/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 提案手法は、手術動画における「術具の受け渡し(handover)」をイベント単位で検出し、さらに受け渡しの方向も分類するための時空間ビジョンフレームワークを示しています。
  • Vision Transformer(ViT)で空間特徴を抽出し、時間方向のLSTMで時系列を集約する構成により、発生の有無と方向をマルチタスクで同時推定し、カスケード方式の誤差伝播を回避する狙いがあります。
  • 時間的な信頼度(confidence)をビデオ上の信号として扱い、ピーク検出によって離散的なhandoversイベントを同定することで、逐次検出をイベント検出へ落とし込んでいます。
  • 腎移植手術データセットで、手渡し検出F1=0.84、方向分類の平均F1=0.72を報告し、方向予測ではVideoMambaベースライン等より優れる一方、検出性能は同等水準を維持しています。
  • 解釈性のためにLayer-CAMを用いて、モデル判断に寄与する空間領域(手-instrumentの相互作用手がかり)を可視化し、意思決定根拠の説明可能性を高めています。

Abstract

Reliable monitoring of surgical instrument exchanges is essential for maintaining procedural efficiency and patient safety in the operating room. Automatic detection of instrument handovers in intraoperative video remains challenging due to frequent occlusions, background clutter, and the temporally evolving nature of interaction events. We propose a spatiotemporal vision framework for event-level detection and direction classification of surgical instrument handovers in surgical videos. The model combines a Vision Transformer (ViT) backbone for spatial feature extraction with a unidirectional Long Short-Term Memory (LSTM) network for temporal aggregation. A unified multi-task formulation jointly predicts handover occurrence and interaction direction, enabling consistent modeling of transfer dynamics while avoiding error propagation typical of cascaded pipelines. Predicted confidence scores form a temporal signal over the video, from which discrete handover events are identified via peak detection. Experiments on a dataset of kidney transplant procedures demonstrate strong performance, achieving an F1-score of 0.84 for handover detection and a mean F1-score of 0.72 for direction classification, outperforming both a single-task variant and a VideoMamba-based baseline for direction prediction while maintaining comparable detection performance. To improve interpretability, we employ Layer-CAM attribution to visualize spatial regions driving model decisions, highlighting hand-instrument interaction cues.