マルチモーダルMRI翻訳のためのマルチスケール構造ガイド付き潜在拡散モデル

arXiv cs.AI / 2026/3/16

📰 ニュースModels & Research

共有:

要点

欠損したモダリティがある場合に生じる解剖学的不整合や劣化したテクスチャを解決するため、MSG-LDMと呼ばれる潜在拡散ベースのフレームワークを提案する。
本手法は潜在空間におけるスタイルと構造の分離機構を導入し、モダリティ特有のスタイル特徴と共有された構造表現を分離し、低周波のレイアウトを高周波の境界ディテールとともにマルチスケール空間でモデル化する。
構造分離の過程では、高周波の構造情報を明示的に特徴表現の強化に用い、モダリティに依存しない低周波の解剖学を学習しつつ、細かな構造的手掛かりに焦点を合わせるようモデルを導く。スタイル整合性損失と構造認識損失がこれを補助する。
BraTS2020およびWMHデータセットを用いた実験により、MSG-LDMは完全な構造を再構成する点で既存のMRI合成手法を上回ることを示しており、コードはGitHubで公開されている。

要約: 拡散モデルは、マルチモーダル磁気共鳴画像（MRI）翻訳タスクにおいて顕著な進歩を遂げましたが、既存の手法は任意の欠測モダリティ状況に対処する際に解剖学的な不整合やテクスチャのディテール低下を招く傾向があります。これらの問題に対処するため、潜在拡散ベースのマルチモーダルMRI翻訳フレームワーク、MSG-LDMと呼ばれるものを提案します。利用可能なモダリティを活用することにより、提案手法は完全な構造情報を推定し、信頼性のある境界ディテールを保持します。特に、潜在空間におけるスタイル―構造のディスエンタングルメント機構を導入し、モダリティ固有のスタイル特徴を共有構造表現から明示的に分離し、低周波の解剖学的配置と高周波の境界ディテールをマルチスケール特徴空間で共同モデル化します。構造のディスエンタングルメント段階では、高周波の構造情報を明示的に組み込み、特徴表現を強化し、モダリティに依存しない低周波の解剖学的表現を学習しながら、微細な構造手掛かりに焦点を当てるようモデルを導きます。さらに、モダリティ固有のスタイルからの干渉を減らし、構造表現の安定性を向上させるために、スタイル一貫性損失と構造認識損失を設計します。BraTS2020およびWMHデータセットを対象とした広範な実験により、提案手法が既存のMRI合成アプローチを上回ることを示し、特に完全な構造の再構成において優れていることが分かりました。ソースコードは https://github.com/ziyi-start/MSG-LDM で公開されています。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

マルチモーダルMRI翻訳のためのマルチスケール構造ガイド付き潜在拡散モデル

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer