Sketch2CT: 構造に配慮した 3D 医療ボリューム生成のためのマルチモーダル拡散

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Sketch2CT は、ユーザーが提供する 2D スケッチに加えて、3D 幾何学的セマンティクスを記述するテキスト情報を条件付けとして用いることで、構造整合性のある 3D 医療臓器ボリュームを生成するマルチモーダル拡散フレームワークを提案する。
この手法はまず、ノイズから解剖学的に整合した 3D セグメンテーションマスクを生成する。具体的には、スケッチ特徴を局所的なテキスト手がかりで洗練するモジュールと、カプセル注意（capsule-attention）バックボーンによってスケッチとテキストの大域表現を融合する仕組みを用いる。
生成されたセグメンテーションマスクは、その後、潜在拡散モデルのガイドとして利用され、ユーザー定義のスケッチと記述に一致する、現実的な 3D CT ボリュームを合成する。
公開されている CT データセットでの実験では、先行手法に比べて性能が向上したと報告されており、マルチモーダルな制御性の改善と、医療データセット拡張にかかるコストの削減が示唆される。
このプロジェクトは GitHub でコードを公開しており、研究者が提案パイプラインを検証し、その上に構築できるようにしている。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to