DLink:EEG基盤モデルから層ごとの知識と支配的知識を蒸留する

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、組込み型BCI向けにEEG基盤モデルを低コストで動かすための知識蒸留フレームワーク「DLink」を提案しています。
  • EEG基盤モデルではタスクに必要な情報が中間層に分散しており、単純な次元削減が表現の崩壊や発振(オシレーション)構造の歪みを引き起こしやすいため、従来手法がうまく機能しにくいと指摘しています。
  • DLinkは、教師層を動的に集約するRouter、Mimic-then-Compressで学習するEEG MiC学生モデル、周波数領域で表現を一致させるスペクトル蒸留の3つを組み合わせています。
  • 4つのEEGベンチマークで評価した結果、コンパクトな学生モデルが軽量ベースラインを上回り、モデルサイズと推論コストを大幅に抑えつつ、完全微調整済みの基盤モデルに近い性能を達成しています。
  • 全体として、発振構造を保ちながらリソース制約のある組込み環境に基盤モデル相当の能力を持ち込むための実用的な方針を示しています。

Abstract

EEG基盤モデル(FM)は、強力な被験者間およびタスク間の汎化を達成しますが、実装を組み込み型BCIシステムへと導くことを妨げるほどの大きな計算コストとメモリコストを課します。知識蒸留は自然な解決策です。しかし従来手法はEEG FMに対してうまく機能しません。というのも、タスクに関連するセマンティクスは中間層に分散していることが多く、過度な次元削減は表現の崩壊やエイリアシングを通じて振動(オシレーション)の構造を歪め得るためです。これらの課題に対処するために、本研究ではDLink(Distilling Layer-wise and Dominant Knowledge)を提案します。これは、大規模なEEG FMからコンパクトな生徒モデルへ知識を転送するための統一的枠組みであり、3つの主要な革新を備えています:(1)教師の層を適応的に集約して支配的な中間表現を捉えるダイナミック・ルータ(dynamic Router);(2)Mimic-then-Compressパイプラインを備えたEEG MiCの生徒(EEG MiC student)。高次元の教師特徴を継承した上で、重い分類ヘッドを回避するために構造化された時空間圧縮を適用します;(3)スペクトル蒸留により、周波数領域で教師と生徒の表現を整合させて圧縮を正則化し、エイリアシングと時間的ジッタを抑制します。4つのEEGベンチマークに関する実験により、DLinkは、コンパクトな生徒モデルが軽量ベースラインを上回りつつ、モデルサイズおよび推論コストを大幅に低くしながら、完全に微調整されたFMの性能に近づけることを示します。