視覚言語モデルのきめ細かな空間-時間理解のための外科手術動画データセットを充実させるためのアプローチ

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の外科手術向け視覚言語データセットが、VLMによる頑健な手術動画理解に必要な、きめ細かな空間-時間の相互に入り組んだダイナミクスを十分に捉えていないと主張する。
手術動画データセット生成のための決定論的手法であるSurgSTU-Pipelineを提案し、時間的・空間的な連続性のフィルタリングを用いることで、高価な手作業ラベルへの依存や、誤りを生みやすい合成生成への依存を低減する。
公開されている外科手術データセットにこのパイプラインを適用し、7,515本の高密度に拡張された動画クリップと、150k件のきめ細かな空間-時間の質問応答サンプルから成るSurgSTUを構築する。
実験の結果、一般化モデルのVLMはゼロショットでは空間-時間タスクで性能が低いが、インコンテキスト学習によって改善することが示される。
SurgSTUで微調整したVLMは空間-時間タスク全体で最良の結果を達成し、著者らはコードを公開する予定である。

概要: 外科手術ビデオの理解は、コンピュータ支援手術を発展させるための重要な前提条件です。近年、視覚言語モデル（VLM）が外科領域に適用されてきましたが、既存の外科用視覚言語データセットでは、複雑で相互に入り組んだ空間—時間（spatial-temporal）ダイナミクスを捉え、評価する点が不足しています。外科手術ビデオにおける細粒度の空間—時間関係を正確に表現する大規模データセットを作成することは、高価な手作業による注釈が必要であること、または大規模言語モデルを用いた生成が誤りを起こしやすいことから、困難です。このギャップに対処するために、時間的および空間的な連続性をフィルタリングする決定論的生成パイプラインである SurgSTU-Pipeline を提案します。これにより、細粒度の空間—時間マルチモーダル理解のための外科データセットを確実に作成します。このパイプラインを公開されている外科データセットに適用し、SurgSTU データセットを作成します。これは、7,515本のビデオクリップを密に拡張し、150k件の細粒度の空間—時間に関する質問—回答（question-answer）サンプルを含むものです。包括的な評価の結果、最先端の汎用（generalist）VLM はゼロショット設定では苦戦する一方で、コンテキスト学習（in-context learning）によってその空間—時間能力は改善できることが示されました。SurgSTU の学習データセットで微調整した VLM は、すべての空間—時間タスクの中で最高の性能を達成し、外科手術ビデオにおける VLM の空間—時間理解を改善するという点で、このデータセットの有効性が検証されました。コードは公開予定です。