SurgΣ: 大規模マルチモーダルデータと外科知能の基盤モデルのスペクトル

arXiv cs.AI / 2026/3/18

💬 オピニオンModels & Research

共有:

要点

SurgΣはSurgΣ-DBという大規模マルチモーダルデータ基盤を導入し、出典元や機関を横断して異種の外科データを標準化・統合（調和）することを目的としています。
SurgΣ-DBは6つの臨床分野と18の実践的な外科タスクにまたがり、画像レベルおよび動画レベルのアノテーションと、さまざまなタスクを支援するための5,980,000件を超える会話を提供します。
データセットのアーキテクチャには、複雑な外科シナリオでのより深い文脈理解のために、階層的推論アノテーションが含まれています。
本論文はSurgΣ-DB上に構築された基盤モデルを示し、外科AIにおけるタスク間の一般化と解釈性の向上を示しています。
分散したデータソースを共通スキーマに統合することにより、データボトルネックを解消し、より堅牢で一般化可能な外科知能の実現を目指します。

要旨: 外科的インテリジェンスは、外科治療の安全性と一貫性を向上させる可能性を持っていますが、既存の多くの外科AIフレームワークはタスク特化型のままで、手技や施設を横断して一般化するのに苦労しています。特にマルチモーダル基盤モデル、特にマルチモーダル大規模言語モデルは、さまざまな医療領域におけるタスク横断の高い能力を示していますが、外科分野での進展は、大規模で体系的に整理されたマルチモーダルデータの欠如によって制約されています。この課題に対処するため、Surg $\Sigma$ 、外科インテリジェンスのための大規模マルチモーダルデータと基盤モデルのスペクトルを導入します。このフレームワークの中核には、Surg $\Sigma$ -DBと呼ばれる、多様な外科タスクを支えるよう設計された大規模マルチモーダルデータ基盤があります。Surg $\Sigma$ -DBは、オープンソースデータセット、社内でキュレーションされた臨床コレクション、ウェブソースデータを含む異種データソースを統一スキーマへ統合し、異種データセット間のラベルの一貫性とデータ標準化を改善することを目的としています。Surg $\Sigma$ -DBは、6つの臨床専門分野と多様な外科タイプにまたがり、理解・推論・計画・生成をカバーする18の実用的な外科タスクに対して、前例のない規模で、画像レベルおよび動画レベルの豊富なアノテーションを提供します（約598万件の会話に相当）。従来のマルチモーダル会話を超えて、Surg $\Sigma$ -DBは階層的推論アノテーションを組み込み、複雑な外科シナリオにおけるより深い文脈理解を支援する、より豊かな意味的手掛かりを提供します。我々はさらに、Surg $\Sigma$ -DB上に構築された最近開発された外科ファウンデーションモデルを通じて経験的証拠を提供し、大規模マルチモーダルアノテーション、統一的意味設計、構造化推論アノテーションが、タスク間の一般化と解釈性を向上させる実践的な利点を示します。