要旨: 人工知能、画像処理、および大規模言語モデルは、手術の実践、トレーニング、そして自動化を変革する可能性を持っています。任意の手術における基本的な手術動作(BSA)、すなわち手術の基本単位の理解とモデリングは、この分野の発展を推進する上で重要です。本論文では、6つの外科専門分野にまたがる10の基本動作から成るBSAデータセットを提示します。これには11,000本を超えるビデオクリップが含まれており、これまでで最大規模です。BSAデータセットに基づき、基本動作を一般的な目的で認識する新しい基盤モデルを開発しました。我々のアプローチは、異なる手技タイプおよびさまざまな部位のデータセットで検証された実験において、専門家を跨ぐ堅牢な性能を示しています。さらに、BAS基盤モデルによって可能となる下流アプリケーションとして、領域特有の知識を用いた前立腺摘出術の手術技術評価、および大規模な視覚と言語モデルを用いた胆嚢摘出術と腎摘出術の行動計画を示します。多国籍の外科医による、行動計画の説明可能なテキスト出力に関する言語モデルの評価は、臨床的関連性を示しました。これらの知見は、基本的な外科手術動作がさまざまな状況で堅牢に認識できることを示しており、正確なBSA理解モデルが複雑な応用を本質的に促進し、外科の超知性の実現を加速させ得ることを示しています。
基本的な外科操作の一般化認識は技能評価と視覚-言語モデルに基づく外科計画を可能にする
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、6つの専門分野にわたる11,000本超のビデオクリップを含む Basic Surgical Actions (BSA) データセットを紹介します。これは現在までで最大規模のデータセットとなる。
- 手術の手技を横断して基本的な外科操作の認識を一般化できる基盤モデルを開発し、分野を超えた専門家間で堅牢な性能を示した。
- 視覚-言語モデルの大規模化と領域知識によって可能になった、前立腺摘出術の外科技能評価や胆嚢摘出術および腎摘出術における手技計画といった下流の応用を示している。
- 多国籍の外科医が計画出力を評価し、臨床的に有用であると判断した。これにより外科計画の迅速化と外科のスーパーインテリジェンスの実現の可能性を示唆している。


