AI Navigate

MANAR: メモリ拡張アテンションとナビゲーショナル抽象概念表現

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MANARは、標準的なマルチヘッド・アテンションを、メモリ拡張の中央作業空間と、グローバル・ワークスペース理論に触発された抽象概念表現を導入することにより一般化します。
  • 統合フェーズは、取得したメモリ概念をグローバルな抽象概念表現(ACR)へ統合し、この状態を用いて局所トークンを文脈化するブロードキャストフェーズを定義します。
  • このアーキテクチャは、情報を一定サイズのACRを経由させてルーティングすることで線形時間スケーリングを実現し、従来のアテンションの二次計算量を緩和します。
  • 重みコピーによる事前学習済みトランスフォーマーからの知識転移を可能にするよう再パラメータ化でき、他の線形時間の代替案と比較して導入障壁を低減します。
  • 言語・視覚・音声タスクにおける実証結果は競争力のある性能を示します(GLUE 85.1、ImageNet-1K 83.9%、LibriSpeech 2.7% WER)。MANARは従来の二次計算量を要するアテンションに対する効率的で表現力のある代替として位置づけられます。

要旨:MANAR(Memory-augmented Attention with Navigational Abstract Conceptual Representation)、文脈化層は Global Workspace Theory(GWT)の原理を具体化することにより標準のマルチヘッド・アテンション(MHA)を一般化します。MHA は制約のない全ノード間通信を可能にしますが、意識の認知モデルで仮説として提唱されている機能的ボトルネックと全体統合機構を欠いています。MANAR は、抽象概念の訓練可能な記憶と抽象概念表現(ACR)を通じて中央ワークスペースを実装することで、これに対処します。アーキテクチャは、GWT の機構に直接対応する 2 段階のロジックに従います:(i)統合フェーズでは、取得された記憶概念が収束して、入力刺激に基づく集合的な「心像」(ACR)を形成します;(ii)ブロードキャストフェーズでは、このグローバル状態が個々のローカルトークンの文脈化を導き、情報を提供します。GWT の機能的ボトルネックを具体化することによって、効率的な線形時間スケーリングが基本的なアーキテクチャの副産物であることを示します。一定サイズの ACR を介してグローバル情報をルーティングすることで、標準のアテンションに固有の二次計算量を解決します。MANAR は、MHA の射影に対して同一の意味的役割を保持した互換的な再パラメータ化であり、重みのコピーによる事前学習済みトランスフォーマーからの知識転送を可能にし、構造的に互換性のない線形時間の代替案の採用障壁を克服します。MANAR は非凸的な文脈化を可能にし、入力トークンの凸包の外側に理論上存在する表現を合成します。これは GWT に記述される創造的統合の数学的反映です。実証的評価は、MANAR が言語(GLUE スコア 85.1)、視覚(ImageNet-1K の 83.9%)、および音声(LibriSpeech の 2.7% WER)において強力なベースラインと同等かそれを超えることを確認し、二次のアテンションに対する効率的で表現力のある代替手段として位置づけています。