訓練なしCNNはV1でバックプロパゲーションに匹敵:ヒトfMRIに対する4つの学習則の体系的RSA比較

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、同一のCNNアーキテクチャに4つの学習則(バックプロパゲーション、フィードバック・アライメント、予測コーディング、スパイクタイミング依存可塑性)を適用し、THINGS-fMRIデータを用いた代表的類似性分析(RSA)でヒト視覚皮質との対応を評価した。
  • 重要な結果として、V1/V2など初期視覚領域のアラインメントは主に学習則ではなくアーキテクチャにより左右され、無訓練のランダム重みCNNがバックプロパゲーションと統計的に同等の性能を示した。
  • LOC/ITなど高次視覚領域では差が現れ、LOC/ITではバックプロパゲーションが優位であり、ITでは局所ヘブ則更新を伴う予測コーディングがバックプロパゲーションと統計的に同等だった。
  • フィードバック・アライメントはV1でランダム基準を下回る表現を一貫して生み出し、さらにピクセル類似性の制御後も全体の効果は維持された。
  • 総じて著者らは、学習則と皮質アラインメントの関係は領域特異的であり、初期ではアーキテクチャが、後期(高次領域)では教師あり目的がより重要だと結論づけた。

要旨: 計算論的神経科学における中心的な問いは、ニューラルネットワークを訓練するために用いられる学習則が、その内部表現がヒトの視覚皮質の表現とどれほどよく整合するかをどのように決定するのか、という点である。私たちは、同一の畳み込みアーキテクチャに適用した4つの学習則――誤差逆伝播(BP)、フィードバック・アライメント(FA)、予測コーディング(PC)、スパイク時間依存可塑性(STDP)――を体系的に比較し、表現の類似性分析(RSA)を用いて、THINGS-fMRIデータセット(720刺激、3被験者)から得られたヒトfMRIデータに対して評価した。決定的なのは、アーキテクチャの支配的な役割を明らかにする、未訓練のランダム重みベースラインを含めていることである。その結果、初期視覚領域(V1/V2)の整合は主としてアーキテクチャに駆動されることが分かった。未訓練のCNNはrho = 0.071を達成し、BP(rho = 0.072、p = 0.43)と統計的に区別できない。学習則が区別を生むのは、より高次の視覚領域においてのみである。BPはLOC/ITで優勢であり、局所的ヘブ型更新を伴うPCは、ITにおける整合がBPと統計的に区別できない(p = 0.18)。FAは一貫してV1以下の領域で、ランダムベースラインを下回る表現を引き起こす。部分RSAにより、これらすべての効果が画素類似性の制御を行っても存続することが確認された。これらの結果は、学習則と皮質整合の関係が領域特異的であることを示している。すなわち、アーキテクチャは初期の整合を決め、教師ありの目的は後期の整合を駆動する。