Brain-DiT：メタデータに条件付けされた事前学習による、ユニバーサルなマルチステートfMRI基盤モデル

arXiv cs.CV / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Brain-DiTは、24のデータセットにまたがる349,898セッションで学習されたユニバーサルなマルチステートfMRI基盤モデルとして提案されており、安静、課題、自然主義的、疾患、睡眠といった脳状態をカバーする。
このモデルは、Diffusion Transformer（DiT）を用いたメタデータ条件付き拡散事前学習により、微細な機能的詳細とグローバルなセマンティック表現の両方を学習することを目指す。
7つの下流タスクに対する実験および複数のアブレーション結果から、拡散ベースの生成的事前学習は、単純なマスク付き再構成（生データ空間／潜在空間）や、再構成／アラインメント手法よりも、より強いプロキシであることが示唆される。
メタデータ条件付けは、集団レベルの変動から内在的な神経ダイナミクスを切り離すことで、下流性能を向上させると報告されている。
論文では、下流の目的関数は異なる表現スケールを好むことが示されており、ADNIの分類はグローバルなセマンティクスからより恩恵を受ける一方、年齢／性別予測はより微細な局所構造に依存する傾向がある。

Abstract

現在のfMRI基盤モデルは主に限られた範囲の脳状態と不一致な事前学習タスクに依存しており、多様な脳状態にわたって一般化された表現を学習する能力が制限されています。私たちは、安静、タスク、自然主義、疾患、睡眠状態にまたがる24のデータセットからなる349,898セッションで事前学習した、ユニバーサルなマルチ状態fMRI基盤モデルである\textit{Brain-DiT}を提示します。生信号空間または潜在空間におけるマスク付き再構成に依存する従来のfMRI基盤モデルとは異なり、\textit{Brain-DiT}はDiffusion Transformer（DiT）を用いたメタデータ条件付き拡散事前学習を採用し、微細な機能構造とグローバルなセマンティクスの両方を捉えるマルチスケール表現を学習できるようにしています。広範な評価と7つの下流タスクに対するアブレーションの結果から、拡散ベースの生成事前学習は再構成やアラインメントよりも強力な代理（プロキシ）であることが一貫して示されました。さらに、メタデータ条件付き事前学習により、集団レベルの変動から固有の神経ダイナミクスを切り離すことで、下流性能が一段と向上することが分かりました。また、下流タスクは表現スケールに対して異なる嗜好を示すことを観察しました。ADNIの分類はグローバルなセマンティック表現からより大きく恩恵を受ける一方、年齢・性別予測は比較的、微細な局所構造により依存しています。Brain-DiTのコードとパラメータは\href{https://github.com/REDMAO4869/Brain-DiT}{Link}で利用可能です。