手術室で人はどこを見ているのか：視線追従による手術ワークフロー理解

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高リスクな手術ワークフローにおける注意の理解を高めるため、手術室で「視線追従」により人がどこを見ているかを推定することを提案しています。
既存の手術動画データセットを拡張し、4D-ORには視線追従の注釈を追加し、Team-ORには視線追従に加えて新しいチームコミュニケーション活動ラベルを付与しています。
著者らは、3つの下流タスクに対し視線に基づくモデルを提案しており、役割・段階認識は視線ヒートマップ、チームコミュニケーション検出は自己教師ありの時空間視線特徴を用います。
4D-ORおよびTeam-ORのベンチマークで、提案手法は最先端性能を達成し、臨床ロール予測でF1=0.92、手術フェーズ認識でF1=0.95を示しています。
チームコミュニケーション検出では既存ベースラインを30%以上上回っており、視線から協調の手がかりを捉える上で大きな改善が示されています。

要旨: 目的: 注視追従（gaze-following）—すなわち、個人がどこを見ているのかを推定する課題—はコンピュータビジョンにおいて広く研究されており、視覚的注意のモデリング、社会的シーン理解、ヒューマンロボットインタラクションに関する研究を前進させてきました。しかし、注視追従は手術室（OR）ではこれまで検討されていません。手術室は複雑で高リスクな環境であり、視覚的注意は外科手術のワークフロー解析において重要な役割を果たします。本研究では、注視追従の概念を外科領域に導入し、手術室において臨床的役割、外科的フェーズ、チーム間のコミュニケーションを理解するうえで、その大きな可能性を示します。方法: 我々は4D-ORデータセットを注視追従のアノテーションで拡張し、Team-ORデータセットを注視追従および新しいチーム間コミュニケーション活動のアノテーションで拡張します。次に、注視追従モデルを用いて、臨床的役割予測、外科的フェーズ認識、チーム間コミュニケーション検出に対処するための新規手法を提案します。役割とフェーズの認識については、注視予測のみを用いる注視ヒートマップベースの手法を提案します。チーム間コミュニケーション検出については、注視に基づくクリップ特徴を符号化する自己教師ありの方法で空間-時間モデルを学習し、その特徴を時間的活動検出モデルに入力します。結果: 4D-ORおよびTeam-ORデータセットにおける実験結果により、提案手法が下流タスクすべてで最先端（state-of-the-art）の性能を達成することが示されます。定量的には、提案手法は臨床的役割予測でF1スコア0.92、外科的フェーズ認識で0.95を得ました。さらに、チーム間コミュニケーション検出において既存のベースラインを大幅に上回り、従来の最高性能を30%以上改善します。結論: 我々は、外科データサイエンスにおける新たな研究方向として、手術室における注視追従を導入し、コンピュータ支援インターベンションにおける外科手術ワークフロー解析を前進させる大きな可能性を示します。