Event-Level Detection of Surgical Instrument Handovers in Videos with Interpretable Vision Models
arXiv cs.CV / 4/10/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 提案手法は、手術動画における「術具の受け渡し(handover)」をイベント単位で検出し、さらに受け渡しの方向も分類するための時空間ビジョンフレームワークを示しています。
- Vision Transformer(ViT)で空間特徴を抽出し、時間方向のLSTMで時系列を集約する構成により、発生の有無と方向をマルチタスクで同時推定し、カスケード方式の誤差伝播を回避する狙いがあります。
- 時間的な信頼度(confidence)をビデオ上の信号として扱い、ピーク検出によって離散的なhandoversイベントを同定することで、逐次検出をイベント検出へ落とし込んでいます。
- 腎移植手術データセットで、手渡し検出F1=0.84、方向分類の平均F1=0.72を報告し、方向予測ではVideoMambaベースライン等より優れる一方、検出性能は同等水準を維持しています。
- 解釈性のためにLayer-CAMを用いて、モデル判断に寄与する空間領域(手-instrumentの相互作用手がかり)を可視化し、意思決定根拠の説明可能性を高めています。
Related Articles
CIA is trusting AI to help analyze intel from human spies
Reddit r/artificial

LLM API Pricing in 2026: I Put Every Major Model in One Table
Dev.to

i generated AI video on a GTX 1660. here's what it actually takes.
Dev.to
Meta-Optimized Continual Adaptation for planetary geology survey missions for extreme data sparsity scenarios
Dev.to

How To Optimize Enterprise AI Energy Consumption
Dev.to