概要: 視覚エンコーディングおよびデコーディングのモデルは、人間の視覚知覚を支える神経メカニズムの理解への入口として機能します。通常、刺激から脳活動を予測する視覚エンコーディングモデルと、脳活動から刺激を再構成するデコーディングモデルは別個の課題として扱われ、別々のモデルと学習手順が必要になります。この分離は非効率であり、エンコーディング処理とデコーディング処理の間の整合性をモデル化できません。そこで本研究では、この制約に対処するため、NeuroFlow を提案します。これは、単一のフローモデルの中で、神経活動から視覚のエンコーディングとデコーディングを同時にモデル化する初めての統一フレームワークです。NeuroFlow は次の 2 つの主要コンポーネントを導入します。(1) NeuroVAE は、神経の変動性をモデル化し、視覚モダリティと神経モダリティにまたがる双方向のモデリングのための、コンパクトで意味的に構造化された潜在空間を確立する変分バックボーンとして設計されています。(2) Cross-modal Flow Matching (XFM) は、特定のモダリティ条件によって導かれるノイズからデータへの拡散という典型的パラダイムを回避し、視覚と神経の潜在分布間で、可逆的に整合したフローモデルを学習します。初めて、視覚のエンコーディングとデコーディングは、共有された潜在空間内での時間依存かつ可逆なプロセスとして再定式化され、統一的なモデル化が可能になります。実験結果は、NeuroFlow が、いずれかの単独手法と比較して、計算効率が高いにもかかわらず、視覚エンコーディングおよびデコーディング課題において全体として優れた性能を達成することを示します。さらに、モデルをエンコーディング—デコーディングの整合性へ導く主要因を分析し、脳機能の解析を通じて、NeuroFlow が神経の変動性を支える整合した活性化パターンを捉えることを示します。NeuroFlow は、神経活動からの統一的な視覚エンコーディングとデコーディングに向けた大きな一歩であり、今後の双方向型の視覚ブレイン・コンピュータ・インタフェースに対して、機構的な洞察を提供します。
NeuroFlow:神経活動からの統一的な視覚エンコーディング/デコーディングに向けて
arXiv cs.LG / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、刺激→神経活動(エンコーディング)と神経活動→刺激(デコーディング)を、別々のパイプラインではなく、単一の可逆フローモデル内で同時に扱う統一フレームワーク「NeuroFlow」を提案する。
- NeuroFlowは、視覚と神経の両モダリティ間で双方向のモデリングを支えるため、コンパクトで意味的に構造化された潜在空間を学習する変分バックボーン(NeuroVAE)を組み合わせる。
- Cross-modal Flow Matching(XFM)を導入し、視覚と神経の潜在分布の間に、可逆的に整合する写像を学習することで、モダリティ固有の拡散スタイルのノイズ-to-データ条件付けに依存せずに整合性を高める。
- 実験の結果、NeuroFlowは、エンコーディング課題とデコーディング課題の両方で、タスクを独立に扱うアプローチよりも全体的に優れた性能を示しつつ、計算効率もより高いことが分かった。
- 著者らはさらに、エンコーディング–デコーディングの整合性を駆動する要因を分析し、モデルが神経の変動性を反映する賦活パターンを捉えていることを示す脳機能の解析結果を報告している。これにより、今後の双方向型の視覚ブレイン・コンピュータ・インターフェースへの示唆を目指す。




