トランスフォーマーはステートレスな微分可能ニューラル・コンピュータ(sDNC)である

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、因果的なトランスフォーマー層が厳密にはステートレスな微分可能ニューラルコンピュータ(sDNC)であることを形式的に導出しており、コントローラが再帰的状態を持たず、外部メモリは一度書き込み専用、注意としてコンテンツベースのアドレシングを用い、マルチヘッド注意が複数のリードヘッドに対応する。
  • この等価性をクロスアテンションへ拡張し、エンコーダ-デコーダ型トランスフォーマーが、読み取り用メモリと書き込み用メモリを別々に持つsDNCであることを示している。
  • 本研究はトランスフォーマーを統一的・記憶中心の解釈として提供し、現代の大規模言語モデルを原理的な計算フレームワークのもとに位置づけるのに役立つ。
  • トランスフォーマーをメモリ拡張計算として再定義することにより、今後のモデル設計、解析、およびニューラルアーキテクチャの解釈性に影響を与える可能性がある。

要旨:Differentiable Neural Computers (DNCs) は、アドレス指定可能な外部メモリを備え、微分可能な読み出しおよび書き込み操作をサポートするリカレントアーキテクチャとして導入された。対照的に、Transformers は名目上、マルチヘッド自己注意に基づくフィードフォワード型のアーキテクチャである。本研究では、因果的 Transformer 層が正確にはステートレスな Differentiable Neural Computer(sDNC)であることを形式的に導出する。条件として、(1) コントローラは再帰的内部状態を持たない、(2) 外部メモリは値ベクトルの一度書き込みしかできない書き込み専用マトリクスである、(3) キーを用いた内容ベースのアドレシングがアテンションを実現する、(4) マルチヘッドアテンションは複数の並列読み出しヘッドに対応する。さらに、この等価性をクロス・アテンションにも拡張し、エンコーダ-デコーダ Transformer は、異なる読み取り元メモリと書き込み先メモリを備えた正確な sDNC であることを示す。われわれの結果は、Transformer に対する統一されたメモリ中心の解釈を提供し、現代の大規模言語モデルを原理に基づく計算的枠組みへ位置づけるという継続的な取り組みに寄与する。