要旨: 機能的磁気共鳴画像法(fMRI)における長距離の時空間ダイナミクスをモデリングすることは、4次元信号の高い次元性のために、依然として重要な課題である。ボクセルベースの先行モデルは、優れた性能と解釈可能性を示しながらも、メモリ要求が過大であるために、取得できる時間窓が限られてしまう。これに対処するために、本研究では、事前学習済みの2D自然画像オートエンコーダを用いてfMRIボリュームをトークン化する新しい手法TABLeT(Two-dimensionally Autoencoded Brain Latent Transformer)を提案する。各3D fMRIボリュームは連続的なトークンのコンパクトな集合へ圧縮され、限られたVRAMで単純なTransformerエンコーダによる長系列モデリングを可能にする。UKバイオバンク(UKB)、ヒトコネクトーム・プロジェクト(HCP)、ADHD-200を含む大規模ベンチマークにおいて、TABLeTは複数のタスクで既存モデルを上回り、同一入力において、最先端のボクセルベース手法に比べて計算およびメモリ効率の面で大きな改善を示す。さらに、TABLeTを事前学習するための自己教師ありのマスクトークンモデリング手法を開発し、さまざまな下流タスクに対するモデル性能を向上させる。これらの結果は、脳活動のためのスケーラブルで解釈可能な時空間モデリングに向けた有望なアプローチを示唆している。コードは https://github.com/beotborry/TABLeT で公開している。
自然画像オートエンコーダはfMRIボリュームをコンパクトにトークン化し、長距離ダイナミクスのモデリングを可能にできるか?
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、3D fMRIボリュームをコンパクトな連続トークンへとトークン化する、Two-dimensionally Autoencoded Brain Latent Transformer(TABLeT)を提案し、限られたメモリのもとで長距離の時空間モデリングを実現可能にする。
- 事前学習済みの2D自然画像オートエンコーダを活用することで、各fMRIボリュームを、ボクセルベースの手法と比べてVRAM要件を削減しつつ、シンプルなTransformerエンコーダで処理できるトークンへ圧縮する。
- 大規模ベンチマーク(UK-Biobank、HCP、ADHD-200)での実験により、TABLeTが複数のタスクにおいて既存モデルを上回ることが示される。
- 著者らはTABLeTに対する自己教師ありのマスクトークンモデリングによる事前学習手法を導入しており、下流タスクでの性能をさらに向上させる。
- 本研究は、計算効率およびメモリ効率の向上を主張しつつ、大規模な脳活動ダイナミクスのモデリングに向けて解釈可能性の維持を目指している。コードはGitHubで公開されている。




