ADP-DiT:アルツハイマー病の進行における脳画像生成のためのテキスト誘導ディフュージョン・トランスフォーマー

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案論文は、アルツハイマー病の追跡MRIを「フォローアップ時点(間隔)」と「参加者の臨床・人口統計・神経心理情報」をテキスト条件として制御する拡散トランスフォーマーモデルADP-DiTを提示した。
  • OpenCLIPとT5の2種類のテキストエンコーダを用いて自然言語プロンプトの埋め込みを生成し、DiT側ではクロスアテンションとアダプティブ層正規化できめ細かな誘導と全体変調を行う。
  • 画像側では回転位置埋め込みと、SDXL-VAEの事前学習済み潜在空間での拡散により、高解像度再構成と解剖学的忠実性を高める工夫がされている。
  • 3T T1画像(712名・3,321スキャン)でSSIM 0.8739、PSNR 29.32dBを達成し、DiTベースラインよりSSIMは+0.1087、PSNRは+6.08dB改善し、脳室拡大や海馬縮小など進行に関連する変化も捉えられることが示された。

Abstract

アルツハイマー病(AD)は個人ごとに不均一に進行するため、進行評価を支援するフォローアップ磁気共鳴画像(MRI)を被験者ごとに合成することが動機づけられている。新興のトランスフォーマー型拡散モデルであるDiffusion Transformers(DiT)は画像合成のためのスケーラブルなバックボーンを提供するが、フォローアップ時刻および参加者メタデータに対して臨床的に解釈可能な制御を備えた縦断AD MRI生成は、いまだ十分に検討されていない。私たちは、縦断AD MRI合成のための、間隔に応じた(interval-aware)かつ臨床テキスト条件付きの拡散トランスフォーマーであるADP-DiTを提示する。ADP-DiTは、フォローアップ間隔を、多領域の人口統計情報、診断(CN/MCI/AD)、および神経心理学的情報とともに自然言語プロンプトとしてエンコードし、粗い診断段階を超えた時間特異的な制御を可能にする。この条件付けを効果的に注入するために、視覚言語アラインメントのためのOpenCLIPと、より豊かな臨床言語理解のためのT5の2つのテキストエンコーダを用いる。これらの埋め込みは、きめ細かなガイダンスのためのクロスアテンションと、グローバルな変調のための適応的層正規化によりDiTへ融合する。さらに、画像トークンに回転位置埋め込みを適用し、事前学習済みのSDXL-VAEラテント空間上で拡散を行うことで、解剖学的忠実性を高め、効率的な高解像度再構成を可能にする。712人の参加者から得られた縦断3T T1強調スキャン3,321件(259,038枚の画像スライス)において、ADP-DiTはSSIM 0.8739およびPSNR 29.32 dBを達成し、DiTのベースラインよりもそれぞれSSIMで+0.1087、PSNRで+6.08 dB改善する。加えて、脳室の拡大や海馬の縮小といった進行関連の変化も捉える。これらの結果は、包括的で被験者固有の臨床的条件とアーキテクチャを統合することで、縦断AD MRI合成を改善できることを示唆している。