SurgCoT:チェーン・オブ・ソート・ベンチマークで手術ビデオにおける時空間推論を前進

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文では、手術ビデオにおけるチェーン・オブ・ソート(CoT)の時空間推論を、7つの専門領域と35の手技にまたがってマルチモーダルLLMで評価する統一ベンチマーク「SurgCoT」を提案しています。
  • SurgCoTは、因果的な行動の順序付け、合図と行動の対応、アフォーダンスの対応付け、微小な遷移の位置特定、異常発生の追跡という5つの重要な推論次元を、構造化CoTフレームワークと集中的なアノテーション手順によって測定します。
  • アノテーションは、背景となる知識を与える「Knowledge」フィールドと、各質問に対して決定的な時空間的根拠を提示する「Clue」フィールドを分けて設計されています。
  • 10の主要MLLMを用いた実験では、商用モデルがオープンソースや医療特化のモデルより優れている一方、手術CoT推論には大きなギャップが残っていることが示されています。
  • 著者らは、SurgCoTを再現可能な評価基盤として位置づけ、現在のMLLMの能力と臨床で求められる推論のギャップを縮める道筋になるとしており、コードはGitHubで公開されています。