広告

ハイブリッド連想メモリ

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RNNと自己注意は根本的に異なるメモリ機構を用いる:RNNは履歴を固定サイズの状態に圧縮するのに対し、自己注意は過去のタイムステップをKVキャッシュに格納し、そのサイズは系列長に応じて増大する。
  • 本論文は、単純なインタリーブ(例:単純な交互挿入)などの素朴なハイブリッド化では、補完的な強みと弱みを取りこぼすと主張する。
  • 完全な系列をRNNで要約しつつ、注意(attention)は「予測しにくい」情報だけを追加することで、データ依存的なKVキャッシュの増大を実現するハイブリッド連想メモリ(HAM)層を提案する。
  • HAMは、ユーザが連続的に制御できる閾値を導入することで、KVキャッシュの拡張を正確に調整でき、損失/性能のトレードオフを滑らかに行える。
  • 実験により、HAMは競合するRNN/Transformerの性能に匹敵、またはそれを上回れる一方で、標準的な注意方式に比べて大幅に少ないKVキャッシュで済むことが示される。

要旨: 再帰型ニューラルネットワーク(RNN)と自己注意はどちらも、内部メモリを保持する広く用いられている系列混合(sequence-mixing)層である。しかしこのメモリは、2つの直交するメカニズムによって構築される。すなわち、RNNは過去全体を固定サイズの状態に圧縮し、一方で自己注意は過去の各時刻ステップをすべて保持し、その状態(KVキャッシュ)が系列長に比例して線形に成長する。これにより、強みと弱みが直交する。自己注意層は文脈の中での情報の引き出しに優れるが、大きなメモリと計算コストを要する。一方でRNNはより効率的であるが、より長い文脈では劣化し、正確な想起(recall)のタスクでは性能が低下する。これまでの関連研究では、これらのメカニズムを組み合わせる際に主として、それらの補完的なメカニズムを考慮せずに計算コストを下げるために単純に機械的に(naively)交互に組み合わせることに焦点が当てられてきた。そこで本研究では、自己注意とRNNを組み合わせつつ、それぞれの個別の強みを活用するHybrid Associative Memory(HAM)層を提案する。すなわちRNNが系列全体を圧縮し、注意は*RNNが予測するのが難しい*情報に限って補足する。したがって、明示的に保存する価値が最も高いのはその情報である。HAM層は、KVキャッシュのデータ依存的な成長を可能にし、ユーザは単一の連続的な閾値によってそれを正確に制御できる。KVキャッシュ成長率のこのきめ細かな制御は、損失と性能の間で滑らかなトレードオフをもたらすことを見出した。経験的に、我々のハイブリッドなアーキテクチャは、KVキャッシュ使用量を大幅に低くした場合であっても、RNNとTransformerに対して強力で競争力のある性能を提供することを示す。

広告