高忠実度視覚再構成を目指して:EEGベースの条件付き生成からモーダル結合ガイドによる再構築へ

arXiv cs.CV / 2026/3/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • JMVRはEEGとテキストを独立したモダリティとして扱うジョイントモーダル学習を導入し、EEG特有の情報を保持して高忠実度な視覚再構成を実現する。
  • マルチスケールのEEGエンコーディング戦略と画像拡張を用いて、細かな特徴と粗い特徴の両方を捉え、知覚的ディテールを向上させる。
  • THINGS-EEGデータセットでの実験は、6つのベースラインと比較して最先端の性能を示し、特に空間構造のモデリングと色彩忠実性の点で優れている。
  • このアプローチは、EEG特徴をテキストや画像のセマンティクスへ圧縮するアライメントベースのパイプラインの制約を解消し、視覚刺激により近い再構成を可能にする。

要約: 人の視覚再構成は、被験者が提供する説明と対応する神経信号に基づいて、細粒度の視覚刺激を再構成することを目的とします。広く採用されているモダリティとして、脳波(EEG)は、シーン内の複雑な空間的関係や色彩の詳細を含む、豊かな視覚認知情報を捕捉します。しかし、現在のアプローチは、EEG特徴をテキストや画像の意味表現と整合させるよう強制する整合フレームワークと深く結びついています。この依存関係は、EEGにおける豊かな空間的および色彩的ディテールを圧縮してしまい、単なる条件付き画像生成を達成するにとどまり、高忠実度の視覚再構成には至らない可能性があります。この制約に対処するため、我々は新しいJoint-Modal Visual Reconstruction (JMVR)フレームワークを提案します。JMVRはEEGとテキストを独立したモダリティとして扱い、共同学習を通じて再構成のためのEEG固有の情報を保持します。さらに、微細および粗粒度の特徴を捉えるためのマルチスケールEEGエンコード戦略と、知覚的ディテールの回復を高めるための画像拡張を併用します。THINGS-EEGデータセットを用いた広範な実験により、JMVRは6つのベースライン手法に対して最先端の性能を達成し、特に空間構造のモデリング能力と色彩忠実性の再現性において優れていることを示しています。