解釈可能なビジョンモデルによる映像における手術器具の受け渡しのイベント単位検出

arXiv cs.CV / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 提案手法は、手術動画における「術具の受け渡し(handover)」をイベント単位で検出し、さらに受け渡しの方向も分類するための時空間ビジョンフレームワークを示しています。
  • Vision Transformer(ViT)で空間特徴を抽出し、時間方向のLSTMで時系列を集約する構成により、発生の有無と方向をマルチタスクで同時推定し、カスケード方式の誤差伝播を回避する狙いがあります。
  • 時間的な信頼度(confidence)をビデオ上の信号として扱い、ピーク検出によって離散的なhandoversイベントを同定することで、逐次検出をイベント検出へ落とし込んでいます。
  • 腎移植手術データセットで、手渡し検出F1=0.84、方向分類の平均F1=0.72を報告し、方向予測ではVideoMambaベースライン等より優れる一方、検出性能は同等水準を維持しています。
  • 解釈性のためにLayer-CAMを用いて、モデル判断に寄与する空間領域(手-instrumentの相互作用手がかり)を可視化し、意思決定根拠の説明可能性を高めています。

Abstract

手術室における手技の効率と患者の安全性を維持するためには、手術器具の受け渡し(交換)を確実に監視することが不可欠です。術中ビデオにおける器具の手渡しの自動検出は、頻繁に発生する遮蔽(occlusion)、背景の情報雑多(background clutter)、および相互作用イベントが時間とともに変化していく性質(temporally evolving)により、依然として困難です。本研究では、手術ビデオにおける手術器具の手渡しについて、イベント単位の検出と方向分類を行うための時空間ビジョンフレームワークを提案します。本モデルは、空間特徴抽出のためのVision Transformer(ViT)バックボーンと、時間的集約のための一方向型のLong Short-Term Memory(LSTM)ネットワークを組み合わせます。手渡しの発生と相互作用の方向を同時に予測する統一されたマルチタスクの定式化により、カスケード型パイプラインで典型的に生じる誤り伝播を避けつつ、受け渡しダイナミクスを一貫してモデル化できます。予測された信頼度スコアはビデオ上で時間信号として形成され、ピーク検出により離散的な手渡しイベントが特定されます。腎移植手術のデータセットに対する実験により、高い性能を示し、手渡し検出でF1-scoreが0.84、方向分類で平均F1-scoreが0.72を達成しました。これは、単一タスクのバリアントおよび方向予測に関してVideoMambaベースラインの両方を上回る結果であり、検出性能については同等の水準を維持しました。解釈可能性を高めるために、Layer-CAMのアトリビューションを用いて、モデルの意思決定に寄与する空間領域を可視化し、手-器具の相互作用に関する手がかりを強調します。