AffordTissue: ツール動作に特化した組織インタラクションのための高密度アフォーダンス予測

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AffordTissueは、外科手術の場においてツール動作に特化した安全な組織インタラクション領域を予測するための新しいマルチモーダル・フレームワークであり、胆嚢摘出術向けに高密度のアフォーダンス・ヒートマップを出力します。
  • この手法は、時間的なビジョン・エンコーダ(ツールの動きと組織のダイナミクスを捉える)と、言語による条件付け(計器・動作の組にまたがって汎化するため)、そして高密度アフォーダンス予測のためのDiTスタイルのデコーダを組み合わせます。
  • 論文では、最初の「組織アフォーダンス」ベンチマークを導入します。103件の胆嚢摘出術プロシージャから、6つのツール・アクション・ペアと4つのインスツルメントをカバーする15,638本のビデオクリップを収集し、アノテーションしました。
  • 実験では、視覚言語モデルのベースラインよりも高密度予測の精度が大幅に優れていることが報告されています(Molmo-VLMでは60.2 pxに対し20.6 pxのASSD)。これは、この高密度の空間推論タスクでは、汎用の基盤モデルよりもタスク特化アーキテクチャが有利であることを示唆します。
  • インスツルメントが安全に相互作用すべき箇所を明示的に特定することで、AffordTissueは外科手術の自動化における予測可能性を高め、政策(方針)ガイダンスや、予測された領域から動作が逸脱した際の早期セーフ停止を可能にすることが期待されます。