SAW: 可制御かつスケーラブルな映像生成を通じた外科アクション世界モデルへ

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

共有:

要点

SAWはSurgical Action World（手術アクション世界）を紹介します。これは拡散ベースのアプローチを用いて、道具と組織の相互作用を精密に制御し、リアルな手術アクション動画を生成できる手術用世界モデルです。
映像生成は、4つの軽量信号に基づいて条件付けられます。すなわち、道具-アクションの文脈を符号化する言語プロンプト、参照手術シーン、組織のアフォーダンスマスク、そして2Dツール先端の軌跡です。これにより軌跡条件付きのアクション合成が可能になります。
バックボーンの拡散モデルは12,044本の腹腔鏡クリップのデータセットで微調整され、推論時に深度データを必要とせずに幾何学的妥当性を保証する深度一貫性損失を用います。
SAWは最先端の時系列的一貫性（CD-FVD: 199.19 対 546.82）を達成し、外科AI（アクション認識の改善）および外科シミュレーション（道具と組織の相互作用をより忠実にレンダリングする能力）への下流利用性を示しています。

要旨: 手具と組織の相互作用を正確に制御できる現実的な外科手術アクション動画を生成する外科用ワールドモデルは、データ不足や希少イベントの合成から、外科自動化のためのシミュレーションと現実世界のギャップを埋めることまで、外科AIとシミュレーションの根本的な課題に対処できる。しかしながら、そのような外科用ワールドモデルの中核をなす現在の動画生成手法は、推論時に高価な注釈や複雑な構造化中間体を条件信号として必要とし、スケーラビリティを制限している。ほかのアプローチは複雑な腹腔鏡シーンにおける時間的一貫性が限られ、十分な現実性を持たない。我々は Surgical Action World (SAW) -- 4つの軽量信号で条件付けされた動画拡散を通じた外科手術アクションワールドモデリングへの一歩として提案する: 道具-アクション文脈をエンコードする言語プロンプト、参照外科場面、組織のアフォーダンスマスク、そして2Dツール先端の軌跡。動画から動画への拡散を、軌跡条件付きの外科アクション合成へと再定式化する条件付き動画拡散アプローチを設計する。コアとなる拡散モデルは、軽量な時空条件信号を備えた12,044本の腹腔鏡クリップのカスタム選定データセット上でファインチューニングされ、推論時に深度を必要とせず幾何学的妥当性を強制する深度整合性損失を活用する。SAWは、ホールドアウトされたテストデータにおいて、最先端の時間的一貫性（CD-FVD: 199.19 対 546.82）と強い視覚品質を達成する。さらに、それのダウンストリームの有用性を示す。(a) 外科AI、SAW生成動画で希少なアクションを拡張すると実データのテスト上でアクション認識が向上する（クリッピングF1スコア: 20.93% から 43.14% へ; 切断: 0.00% から 8.33% へ）、および (b) 外科手術シミュレーション、シミュレータ由来の軌跡点から道具-組織の相互作用動画をレンダリングして、視覚的に忠実なシミュレーションエンジンを実現する。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

SAW: 可制御かつスケーラブルな映像生成を通じた外科アクション世界モデルへ

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer