要旨: 潜在拡散モデルは医用画像領域で強力な生成モデルとして登場し、高品質な脳の磁気共鳴画像(MRI)スキャンの合成を可能にしています。とりわけ、患者の脳の経時的な変化を予測することは、早期介入、予後、治療計画の支援につながります。本研究では、状態空間に基づく潜在拡散モデルによる、制御可能な縦断的脳画像生成であるCLIMB(Controllable Longitudinal brain Image generation via state space based latent diffusion model)を提案します。CLIMBは、ベースラインMRIスキャンとその撮像年齢を基礎入力として用い、脳構造の時間変化をモデリングするために設計されています。さらに、投影年齢、性別、疾患状態、遺伝情報、脳構造の体積といった複数の条件変数を組み込み、解剖学的変化の時間的モデリングを高めます。入力画像から文脈情報を効果的に捉える一方で計算コストが高い、既存のLDM手法が自己注意モジュールに依存しているのとは異なり、我々のアプローチは、計算オーバーヘッドを大幅に削減しつつ高品質な画像合成を維持できる状態空間(state space)を活用します。加えて、従来の変分オートエンコーダに固有のサンプリングノイズなしに、事前分布に整合する潜在表現を抽出するガウス整合型オートエンコーダも導入します。提案したモデルを、1,390人の参加者からなる6,306件のMRIスキャンを含むアルツハイマー病神経画像イニシアチブ(Alzheimers Disease Neuroimaging Initiative)データセットで学習・評価します。生成画像を実際のMRIスキャンと比較することで、CLIMBは構造類似性指数0.9433を達成し、既存手法に対して顕著な改善を示します。
CLIMB:Mambaベース潜在拡散モデルとガウス整合オートエンコーダによる制御可能な経時脳画像生成
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CLIMBは、ベースラインMRIと撮像年齢を入力にして、脳の経時的な構造変化を生成・予測する「状態空間ベースの潜在拡散モデル(LDM)」として提案されています。
- 年齢の投影、性別、疾患状態、遺伝情報、脳構造ボリュームなど複数の条件変数を用いることで、解剖学的変化の時間モデリングを強化します。
- 従来の自己注意(self-attention)に依存するLDMと比べ、状態空間モデルを採用することで計算コストを大幅に抑えつつ、高品質な画像生成を維持することを目指しています。
- さらに、ガウス整合オートエンコーダを導入し、従来の変分オートエンコーダにあるサンプリング由来のノイズを抑えた潜在表現の抽出を行います。
- Alzheimer Disease Neuroimaging Initiative(6,306スキャン、1,390人)で評価し、実MRIとの比較で構造的類似性指標(SSIM)0.9433を達成したと報告しています。