Where to Bind Matters: 少数ショットのキャラクター認識における視覚トランスフォーマへヘビアン・ファストウェイトを組み込む

arXiv cs.CV / 2026/5/6

💬 オピニオンModels & Research

要点

  • 本論文は、ヘビアン・ファストウェイト(HFW)モジュールを視覚トランスフォーマに追加することで、標準的な「遅い重み(slow-weight)」中心のモデルが持たない推論時のエピソード単位の素早い適応を可能にする点を検討します。
  • HFWを複数のバックボーン(ViT-Small、DeiT-Small、Swin-Tiny)に統合し、プロトタイプ・ネットワークによるメタ学習の枠組みのもと、Omniglotで5-way 1-shot/5-way 5-shotの分類を評価します。
  • Swin-Tinyでは、階層的な各ステージが完了した後に最終ステージの特徴マップへ1つのHFWモジュールを適用する単一配置戦略が有効で、複数ステージにHFWを置くと生じる学習不安定性を回避できると示します。
  • この配置は、評価した6つのモデルすべてで最高精度を達成し、1-shotで96.2%、5-shotで99.2%を記録し、1-shotでは非ヘビアン基線より+0.3ポイント改善したと報告されています。
  • 本研究は、Swinのシフト窓の帰納的バイアスとヘビアン結合の相互作用、そして低データ領域でViT/DeiTではブロックごとの配置が失敗する理由を分析し、fast/slow-weightメタ学習の既存研究文脈にも位置付けています。

Abstract

標準的なトランスフォーマーアーキテクチャは、学習中に固定された遅い重みの表現を学習するため、エピソード内で迅速に適応する仕組みを欠いています。これに対して生物学的な神経システムは、推論中に一時的な連想記憶を形成する、速いシナプス更新によってこれを実現しており、この性質はヘッブ可塑性として知られています。本論文では、ViT-Small、DeiT-Small、Swin-Tiny を含む複数のトランスフォーマーのバックボーンに統合したヘッブ型高速重み(Hebbian Fast-Weight: HFW)モジュールについて、実証的な研究を行います。我々は、Prototypical Network のメタラーニング枠組みに基づき、Omniglot ベンチマークを用いて、5-way 1-shot および 5-way 5-shot の分類タスクで、6種類のモデル変種(ViT、DeiT、Swin、ViT-Hebbian、DeiT-Hebbian、Swin-Hebbian)を評価します。さらに、Swin-Tiny に対して、階層的な全ステージの完了後に最終段の特徴マップへ 1つの HFW モジュールを適用する、単一モジュール配置戦略を提案します。この設計により、各ステージに個別のヘッブ型モジュールを配置することで生じる学習の不安定性を回避でき、6つの全モデルの中で最も高いテスト精度を達成します(1-shot で 96.2 i% 、5-shot で 99.2 i%)。また、非ヘッブ型のベースラインを 1-shot において +0.3 パーセンテージポイント 上回ります。Swin のシフトされたウィンドウの帰納バイアスと、エピソード単位のヘッブ的バインディングの相互作用を解析し、低データ環境では ViT および DeiT の各ブロックごとの配置がなぜ失敗するのかを議論するとともに、ファスト/スローワー メタラーニングに関するより広い先行研究の中でこれらの結果を位置づけます。