概要: 脳エンコーディングモデルは、視覚刺激がどのように変換されて神経応答として表現されるかを解読するために役立つだけでなく、重度の視覚障害を持つ患者の視覚を回復する視覚補綴(プロステーシス)に向けた重要な一歩をも意味します。脳エンコーディングには、2つの基本的なステップがあります。すなわち、神経応答の忠実な再構成を達成すること、そして視覚刺激と神経応答の間でクロスモーダルなアラインメントを確立することです。そこで本研究では、視覚刺激から磁気脳波(MEG)および脳波(EEG)信号を生成するための新しい脳エンコーディング枠組み ViBE を提案します。具体的には、まず、神経応答の再構成を効果的に行うために、M/EEG信号の時空間的特徴を捉える時空間畳み込み変分オートエンコーダ(TSC-VAE)を設計します。視覚特徴と神経表現の間にあるモダリティギャップを埋めるために、Q-Former を用いて CLIP 画像埋め込みを TSC-VAE の潜在空間へマッピングし、神経プロキシ埋め込みを生成します。包括的なクロスモーダルなアラインメントのために、神経プロキシ埋め込みとTSC-VAE潜在埋め込みの間で、点ごとの特徴マッチングには平均二乗誤差(MSE)損失を用い、確率分布のアラインメントには sliced Wasserstein distance(SWD)を用いています。THINGS-EEG2 および THINGS-MEG データセットで大規模な実験を行い、提案手法が視覚刺激から高品質な M/EEG 信号を生成する上で有効であることを示します。
ViBE:時空間VAEと分布整合型射影による視覚→M/EEG脳エンコーディング
arXiv cs.CV / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚刺激からMEG/EEG信号を生成する新しい脳エンコーディング枠組みViBEを提案し、神経科学の解明と重度視覚障害患者向けの視覚補綴への応用を目指している。
- ViBEは、スパト・テンポラルな畳み込み変分オートエンコーダ(TSC-VAE)を用いて、M/EEG信号の時空間的な構造を学習し、神経応答の再構成を行う。
- 視覚と神経のモダリティギャップを埋めるために、Q-FormerでCLIP画像埋め込みをTSC-VAEの潜在空間へ写像し、神経プロキシ埋め込みを作る。
- モダリティ間の整合では、点ごとの特徴一致にMSE損失を用いると同時に、神経プロキシ埋め込みとTSC-VAE潜在埋め込みの確率分布整合にスライス付きワッサースタイン距離(SWD)を組み合わせている。
- THINGS-EEG2およびTHINGS-MEGデータセットでの広範な実験により、視覚刺激から高品質なMEG/EEG信号を生成できる有効性が示されている。