Sum-of-Checks:大規模ビジョン言語モデルによる外科手術のための構造化推論と安全性検証

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、「Sum-of-Checks」という枠組みを提案し、腹腔鏡下胆嚢摘出術における安全の重要確認(Critical View of Safety: CVS)基準を、専門家が定義した臨床的に意味のある視覚的検証チェックへ分解します。
  • 各内視鏡フレームに対して、大規模ビジョン言語モデル(LVLM)がチェックごとに二値判断と根拠を提示し、基準レベルのスコアは固定の重み付き集計で算出されます。
  • Endoscapes2023ベンチマークで3つの先端LVLMを用いた評価では、Sum-of-Checksが、ダイレクト・プロンプト、Chain-of-Thought、サブ質問分解といった最良ベースラインに比べて、フレームレベルの平均mAPを12〜14%改善します。
  • 観察系のチェック(視認性や器具の遮りなど)は比較的信頼できる一方で、意思決定に直結する解剖学的証拠ではばらつきが大きいことが示され、構造化推論が特に効く領域が明確になります。
  • 研究は、証拠の抽出と意思決定を明示的に分離することで、安全性が重要な外科AIの精度と監査可能性の両方が高まると結論づけています。

要旨: 目的: 腹腔鏡下胆嚢摘出術における安全の重要な見解(Critical View of Safety: CVS)を正確に評価することは、重大な罹患率と死亡率に関連する合併症である胆管損傷を防ぐために不可欠である。大規模視覚言語モデル(LVLM)は柔軟な推論を提供する一方で、その予測は監査が困難であり、安全性が重要な外科タスクにおいて信頼性に欠ける。
方法: 私たちは、各CVSの基準を、臨床的に関連する視覚的根拠を反映する専門家が定義した推論チェックへと分解する枠組み「Sum-of-Checks」を提案する。腹腔鏡のフレームが与えられると、LVLMが各チェックを評価し、二値の判断と根拠を生成する。基準レベルのスコアは、チェック結果の固定された重み付き集計によって算出される。Endoscapes2023ベンチマークで評価を行い、最前線のLVLMを3つ用いて、直接プロンプト、Chain-of-Thought(逐次思考)、サブ質問分解を比較する。さらに、それぞれに少数ショット例の有無を組み合わせる。
結果: Sum-of-Checksは、3つのモデルと全ての基準にわたって最良のベースラインと比較して、平均フレームレベルの平均精度(mean average precision)を12--14%改善する。個々のチェックの分析から、LVLMは観察に関するチェック(例: 視認性、器具の遮蔽)では信頼性が高い一方で、意思決定に決定的な解剖学的根拠においてはかなりのばらつきを示すことが分かった。
結論: 外科的推論を専門家と整合した検証チェックとして構造化することにより、LVLMに基づくCVS評価の精度と透明性の両方が向上する。さらに、証拠の抽出と意思決定を明示的に分離することが、信頼性があり監査可能な外科AIシステムにとって重要であることを示す。
コードは https://github.com/BrachioLab/SumOfChecks で利用可能。