解釈可能なビジョンモデルによる映像における手術器具の受け渡しのイベント単位検出
arXiv cs.CV / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 提案手法は、手術動画における「術具の受け渡し(handover)」をイベント単位で検出し、さらに受け渡しの方向も分類するための時空間ビジョンフレームワークを示しています。
- Vision Transformer(ViT)で空間特徴を抽出し、時間方向のLSTMで時系列を集約する構成により、発生の有無と方向をマルチタスクで同時推定し、カスケード方式の誤差伝播を回避する狙いがあります。
- 時間的な信頼度(confidence)をビデオ上の信号として扱い、ピーク検出によって離散的なhandoversイベントを同定することで、逐次検出をイベント検出へ落とし込んでいます。
- 腎移植手術データセットで、手渡し検出F1=0.84、方向分類の平均F1=0.72を報告し、方向予測ではVideoMambaベースライン等より優れる一方、検出性能は同等水準を維持しています。
- 解釈性のためにLayer-CAMを用いて、モデル判断に寄与する空間領域(手-instrumentの相互作用手がかり)を可視化し、意思決定根拠の説明可能性を高めています。