自然ドメイン基盤モデルは心臓MRIの高速再構成に有効か?

arXiv cs.LG / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、CLIPやDINOv2などの自然ドメイン基盤モデルが、加速心臓MRI再構成の有効な画像事前知識(プライア)になり得るかを検証し、BiomedCLIPのようなドメイン特化手法と比較します。
  • 提案する手法は、事前学習済みの視覚エンコーダ(重みを凍結)を各再構成カスケード内に組み込むアンロール型再構成フレームワークです。
  • 実験では、E2E-VarNetのようなタスク特化の最先端再構成モデルが、標準的なin-distribution設定では基盤モデルベース手法を上回る一方であることが示されます。
  • 学習データが心臓MRIで、評価は解剖学的に異なる膝・脳データセットを用いるクロスドメイン条件では、基盤モデルベース手法が特に高加速率や低周波サンプリングが限られる状況で頑健性を高めます。
  • 全体として、自然画像で事前学習されたモデルは転移可能な構造表現を学習して一般化を改善し、BiomedCLIPのようなドメイン特化事前学習は、より難しい(ill-posedな)状況で得られる追加効果が小さいことが示唆されます。

Abstract

大規模な事前学習済み基盤モデルの出現はコンピュータビジョンを変革し、多様な下流タスクにわたって強力な性能を可能にしました。しかし、心臓MRI再構成の高速化のような物理ベースの逆問題に対するそれらの潜在能力は、いまだ十分に探究されていません。本研究では、自然領域の基盤モデルが高速化した心臓MRI再構成に対する有効な画像事前情報(image prior)として機能し得るかを検証し、BiomedCLIPのようなドメイン特化型の手法と得られる性能を比較します。我々は、再構成プロセスを導くために、各カスケード内にCLIP、DINOv2、BiomedCLIPといった事前学習済みの凍結済み視覚エンコーダを組み込む、アンロール(unrolled)型の再構成フレームワークを提案します。大規模な実験を通じて、標準的なin-distribution設定ではE2E-VarNetのようなタスク固有の最先端再構成モデルがより優れた性能を達成する一方で、基盤モデルに基づく手法も競争力を維持していることを示します。さらに重要なのは、モデルが心臓MRIで訓練され、解剖学的に異なる膝および脳のデータセットで評価されるような困難なクロスドメイン状況において、基盤モデルが特に高い加速因子や、限られた低周波のサンプリング下で優れた頑健性を示すことです。また、CLIPのような自然画像で事前学習されたモデルは、高度に転移可能な構造表現を学習する一方で、ドメイン特化の事前学習(BiomedCLIP)は、より不適切(ill-posed)な状況においてわずかな追加の利得をもたらすにとどまることも観察しました。全体として、本結果は、事前学習済み基盤モデルが転移可能な事前情報の有望な供給源となり、高速化したMRI再構成において頑健性と汎化性を向上させ得ることを示唆しています。