CardioDiT: 4D心臓MRI合成のための潜在拡散トランスフォーマ

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CardioDiTは、心臓のシネMRIを統一された4D(空間+時間)の潜在拡散問題として合成することを提案し、空間と時間を分解して扱う従来手法や、マスクのような時間的一貫性トリックに依存する手法の限界に対処します。
  • この手法では、時空間VQ-VAEを用いて2D+tスライスをコンパクトな潜在表現へエンコードし、その後、拡散トランスフォーマが得られた潜在表現をフルの3D+tボリュームとして共同でモデル化することで、空間生成と時間生成をエンドツーエンドで結び付けます。
  • 公開データセットおよびより大規模なプライベートコホートでの実験により、スライス間の整合性、心臓運動の時間的な整合性、心機能の分布の現実性が向上することが示されています。
  • 著者らは、時空間の結合度を段階的に高めたベースラインとCardioDiTを比較し、拡散トランスフォーマによる明示的な4Dモデリングが4D心臓画像合成のより原理的な基盤となることを主張します。
  • 公開データで学習したコードおよびモデルは、提供されたGitHubリポジトリを通じて公開され、再現性の支援とさらなる研究を可能にします。

Abstract

潜在拡散モデル(LDM)は、3D医用画像合成において近年強力な性能を示してきました。しかし、心拍周期全体を時間的に同期した3Dボリュームとして表す、cine心臓MRI(CMR)のようなモダリティは、多くの生成手法が直接モデル化していない追加の次元を導入します。代わりに、これらは空間と時間を分解するか、解剖学的マスクのような補助的メカニズムを通じて時間的整合性を強制します。このような戦略は、構造的なバイアスを持ち込み、グローバルな文脈の統合を制限する可能性があり、微妙な時空間の不連続や生理学的に整合しない心臓のダイナミクスにつながり得ます。本研究では、アーキテクチャの分解なしに、統一的な4D生成モデルが連続的な心臓ダイナミクスを学習できるかを検討します。拡散トランスフォーマに基づく、短軸cine CMR合成のための完全に4Dな潜在拡散フレームワークであるCardioDiTを提案します。時空間VQ-VAEが2D+tスライスをコンパクトな潜在表現へエンコードし、その後拡散トランスフォーマがそれらを、生成過程全体を通じて空間と時間を結び付けた完全な3D+tボリュームとして共同でモデル化します。公開CMRデータセットおよびより大規模な非公開コホートでCardioDiTを評価し、時空間結合が段階的に強くなるベースラインと比較しました。結果は、スライス間の整合性の向上、時間的に一貫した運動、そして現実的な心臓機能の分布を示しました。これは、拡散トランスフォーマによる明示的な4Dモデリングが、時空間的な心臓画像合成のための原理に基づく基盤を提供し得ることを示唆しています。公開データで学習したコードとモデルはhttps://github.com/Cardio-AI/cardioditで利用可能です。