要旨: 拡散モデルは、高忠実度の医療画像合成に向けた主要なアプローチとなっています。しかし、3D医療画像生成のための既存手法の多くは、潜在拡散フレームワーク内で畳み込みU-Netバックボーンに依存しています。有効ではあるものの、これらのアーキテクチャは強い局所性のバイアスと限られた受容野を課すため、スケーラビリティ、グローバルな文脈の統合、柔軟な条件付けを制約しうる可能性があります。本研究では、体積医療画像合成のための、初の純粋なトランスフォーマーに基づく3D Diffusion TransformerであるVolDiTを提案します。我々のアプローチは、体積パッチ埋め込みと、3Dトークン上で直接動作するグローバル自己注意によって、拡散トランスフォーマーをネイティブな3Dデータへ拡張します。構造化された制御を可能にするために、セグメンテーションマスクを学習可能な制御トークンへ写像し、消音(denoising)中にトランスフォーマー層を変調する、タイムステップ・ゲート付き制御アダプタを提案します。このトークンレベルの条件付け機構により、トランスフォーマーアーキテクチャのモデリング上の利点を保ちながら、精密な空間ガイダンスが可能になります。我々は、高解像度の3D医療画像合成タスクでモデルを評価し、U-Netsに基づく最先端の3D潜在拡散モデルと比較します。その結果、グローバルな整合性の向上、生成忠実度の優れた性能、制御可能性の強化が示されます。これらの発見は、完全にトランスフォーマーベースの拡散モデルが、体積医療画像合成のための柔軟な基盤を提供しうることを示唆しています。公開データで学習したコードとモデルは https://github.com/Cardio-AI/voldit で利用可能です。
VolDiT:拡散トランスフォーマーによる制御可能な体積医用画像合成
arXiv cs.CV / 2026/3/27
📰 ニュースSignals & Early TrendsModels & Research
要点
- VolDiTは、体積医用画像合成のための初の純粋にトランスフォーマーベースの3D拡散トランスフォーマーを提案し、畳み込みU-Netバックボーンを用いる一般的な潜在拡散アプローチを超えます。
- 本手法は、3Dボリュームに対する拡散トランスフォーマーを、体積パッチ埋め込みと、3Dトークン上でのグローバル自己注意によってネイティブに拡張し、グローバルな文脈の把握をより適切にします。
- 構造化されたガイダンスのために、VolDiTは時刻ゲート付き制御アダプタを導入し、セグメンテーションマスクを学習可能な制御トークンへ変換することで、復元(denoising)中にトランスフォーマー層を調節します。
- 高解像度の3D医用画像合成タスクに関する実験では、U-Netに基づく最先端の3D潜在拡散モデルと比較して、グローバルな一貫性の向上、生成の忠実度の向上、ならびに制御性の強さが報告されています。
- 著者らは、提供されたGitHubリポジトリを通じてコードと学習済みモデルを公開しており、再現性とさらなる研究を支援します。
広告


