要旨: 外科手術の場面理解は、正確な予測だけでなく、外科医が臨床知識と照合できる解釈可能な推論も求めます。しかし、既存の外科用ビジョン-言語モデルは推論チェーンを伴わずに予測を生成し、汎用の推論モデルは領域特異的な知識が欠けると組成的な外科タスクで機能しません。私たちはSurg-R1、階層的推論を介してこのギャップを埋める外科用Vision-Languageモデルを提示します。これは四段階のパイプラインで学習されます。私たちのアプローチは3つの主要な貢献を導入します: (1) 外科的解釈を知覚的グラウンディング、関係理解、文脈推論に分解する3レベルの推論階層; (2) 32万件の推論チェーンを含む最大規模の外科的推論チェーンデータセット; (3) 監督付きファインチューニングからグループ相対ポリシー最適化と反復的自己改善へと進む四段階の訓練パイプライン。 SurgBenchを構成する6つの公開ベンチマークと5つの機関からの6つのマルチセンター外部検証データセットを用いた評価は、Surg-R1 が公開ベンチマークで最も高いArena Score(64.9%)を達成し、Gemini 3.0 Pro(46.1%)および GPT-5.1(37.9%)に対して優位に立つことを示しています。これにより、器具の局在化、トリプレット認識、位相認識、アクション認識、そして安全性評価のクリティカルビューを含むタスクの大半で、独自の推論モデルおよび専門的な外科VLMを上回り、外部検証では最も強力な外科ベースラインより15.2パーセントポイントの改善を達成します。
Surg-R1: 複数センターの臨床検証を伴う、スケーラブルで解釈可能な外科意思決定支援の階層的推論基盤モデル
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Surg-R1は、外科領域の視覚-言語モデリングのための3レベルの階層的推論フレームワークを提示し、知覚的グラウンディング、関係理解、文脈推論を解釈可能な出力とともに実現する。
- 320,000件の推論ペアを含む最大規模の外科チェーン・オブ・ソート(CoT)データセットと、監督付き微調整からグループ相対ポリシー最適化、反復的自己改善へと移行する4段階の訓練パイプラインを導入している。
- SurgBenchおよび5機関からの6つの外部マルチセンター・データセットにおいて、Surg-R1はアリーナスコア64.9%の最高値を達成し、Gemini 3.0 ProおよびGPT-5.1を上回った。
- 本モデルは、機器局在、トリプレット認識、フェーズ/アクション認識、および安全性評価といったタスクで、独自の推論モデルや専門的な外科VLMを上回り、外部検証において15.2ポイントの改善を達成した。