Abstract
標準的なトランスフォーマーアーキテクチャは、学習中に固定された遅い重みの表現を学習するため、エピソード内で迅速に適応する仕組みを欠いています。これに対して生物学的な神経システムは、推論中に一時的な連想記憶を形成する、速いシナプス更新によってこれを実現しており、この性質はヘッブ可塑性として知られています。本論文では、ViT-Small、DeiT-Small、Swin-Tiny を含む複数のトランスフォーマーのバックボーンに統合したヘッブ型高速重み(Hebbian Fast-Weight: HFW)モジュールについて、実証的な研究を行います。我々は、Prototypical Network のメタラーニング枠組みに基づき、Omniglot ベンチマークを用いて、5-way 1-shot および 5-way 5-shot の分類タスクで、6種類のモデル変種(ViT、DeiT、Swin、ViT-Hebbian、DeiT-Hebbian、Swin-Hebbian)を評価します。さらに、Swin-Tiny に対して、階層的な全ステージの完了後に最終段の特徴マップへ 1つの HFW モジュールを適用する、単一モジュール配置戦略を提案します。この設計により、各ステージに個別のヘッブ型モジュールを配置することで生じる学習の不安定性を回避でき、6つの全モデルの中で最も高いテスト精度を達成します(1-shot で 96.2
i% 、5-shot で 99.2
i%)。また、非ヘッブ型のベースラインを 1-shot において +0.3 パーセンテージポイント 上回ります。Swin のシフトされたウィンドウの帰納バイアスと、エピソード単位のヘッブ的バインディングの相互作用を解析し、低データ環境では ViT および DeiT の各ブロックごとの配置がなぜ失敗するのかを議論するとともに、ファスト/スローワー メタラーニングに関するより広い先行研究の中でこれらの結果を位置づけます。