メモリ・ウォールは消せない——あらゆるアーキテクチャが突き当たることを示す3本の論文

Dev.to / 2026/4/21

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事では「GPUメモリ・ウォール」(メモリ帯域が足りず計算が待たされる状態)がローカルLLMに直結して制約になることを、特にVRAMが小さくコンテキストが長い場合を例に説明しています。
  • 2026年4月に発表された3本の論文を取り上げ、ニューラル形態チップやエッジNPU、処理-in-メモリなどで“メモリ・ウォールからの脱出”を試みた結果、ボトルネックは別の形で残ると結論づけています。
  • ニューロモーフィック(ニューロ形態)テストでは、計算をメモリに近づけてDRAMの帯域差を回避できる一方で、制約がオンチップメモリの面積とリーク電力へ移り、「新しいメモリ・ウォール」が生まれることを示しています。
  • エッジNPUテストでは、注意(attention)のためのKVキャッシュがコンテキスト長に対して線形に増えるため、帯域効率を高めてもオンチップメモリ容量の制約が推論性能を依然として縛ると強調しています。
  • 全体として、計算を行う場所を変えても根本の制約は消えず、帯域か、面積/リークか、キャッシュ容量やリフレッシュ(更新)エネルギーかといった「どの資源が限界になるかが変わる」だけだという示唆です。

記憶の壁から「エスケープルート」を3つ試した

GPUの「メモリの壁」――記憶(メモリ帯域)が追いつかず、計算がアイドル状態になってしまうこと――は、ローカルLLMを動かしたことがある人なら誰もが体感的に分かる現象です。RTX 4060の8GBでは、モデルサイズもコンテキスト長もメモリ依存になってしまいます。

ニューロモーフィックチップ。エッジNPU。Processing-in-Memory(PIM)。これらのアーキテクチャはすべて、「フォン・ノイマン・ボトルネックからの脱出」を旗印にしています。メモリの壁はGPU固有の問題だ、と彼らは言います。アーキテクチャを変えれば、問題は解決する――少なくとも、その約束がありました。

2026年4月に、その約束を試す3つの論文が出ました。結論は「壁はまだそこにある」です。

テスト1:ニューロモーフィックの「新しい壁」

Yousefzadehらの「Memory Wall is not gone(メモリの壁は消えていない)」(arXiv:2604.08774)は、タイトルからして率直です。

ニューロモーフィックチップの設計思想は「分散メモリ(distributed memory)」にあります。ニューロン・コアごとにローカルSRAMを持ち、シナプス重みはコアのすぐ隣に配置されます。計算とメモリの距離はゼロに近づき、構造的にGPUのメモリの壁(DRAMと計算ユニットの間の帯域ギャップ)を迂回します。

しかし、その迂回にはコストがある、と論文は指摘します:

「オンチップのメモリシステム(SRAMおよびSTT-MRAM系)は、面積とエネルギーの主要な消費者になっており、新たなメモリの壁を形成している。」

分散アーキテクチャでは、SRAMはニューロン×シナプスに比例して必要です。計算をメモリの近くに持っていくことで、チップ面積はメモリで埋まっていきます。SRAMは常に電力を要し、スパイクがないアイドル期間でもエネルギーが漏れ出ます。

SRAMを非揮発性のSTT-MRAM(スピン移行トルクMRAM)で置き換える試みも進んでいますが、書き込みエネルギーは高く、耐久性には限界があります。メモリ技術を変えても、構造は変わりません。「メモリ面積とエネルギーがボトルネック」という形のままです。

GPUでは帯域がボトルネックでした。ニューロモーフィックでは面積とリーク電流がボトルネックです。壁は、形を変えただけでした。

テスト2:KVキャッシュはエッジNPUでも支配的

SHIELD(arXiv:2604.07396)は、エッジNPU上でのLLM推論を対象にしています。論文の冒頭は問題をはっきりと言い切っています:「エッジNPUにおけるLLM推論は、オンチップメモリ容量の制限によって本質的に制約される。」

エッジNPUは、推論のためのメモリ効率を最大化するよう設計されています。ですが、LLM推論にはKVキャッシュが必要です。KVキャッシュとは、Attention計算における過去のKeyとValueを保持するメモリ領域のことです。これはコンテキスト長に対して線形に増えるため、メモリを圧迫します。

SHIELDは、KVキャッシュを保持するeDRAM(組み込みDRAM)のリフレッシュエネルギーに焦点を当てます。DRAMはデータをコンデンサ内の電荷として保存するため、定期的なリフレッシュ(再充電)が必要です。

BF16(bfloat16)のビットフィールド:
  符号(1ビット)+指数(8ビット)=大きさを決定
  仮数(7ビット)=精度を決定

SHIELDのアプローチ:
  KVキャッシュ(永続):仮数のリフレッシュを緩和
  クエリ/Attention出力(一時的):仮数のリフレッシュを完全にスキップ
  符号+指数:常にフルリフレッシュ(正しさにとって重要)

データの「寿命」と「ビット感度」に基づいてリフレッシュ戦略を分離することで、SHIELDはeDRAMリフレッシュエネルギーを35%削減します。精度はWikiText-2、PIQA、ARC-Easyで維持されます。

SHIELDは「解決策」であると同時に「問題の証拠」でもあります。専用NPUの論文が「メモリリフレッシュエネルギー」を最適化ターゲットに据えるとき、それは、推論専用に特化したチップでさえメモリがボトルネックになっていることを示します。

テスト3:GQAは壁を「3分の1」にしか縮めない

TRAPTI(arXiv:2604.06955、IJCNN 2026)は、組み込みTransformer推論におけるオンチップメモリ占有を時間の経過とともに解析します。

同一のアクセラレータ構成で、GPT-2 XL(MHA:Multi-Head Attention)とDeepSeek-R1-Distill-Qwen-1.5B(GQA:Grouped-Query Attention)を比較すると、GQAベースのDeepSeekはピーク時のオンチップメモリを2.72倍少なく使用します。

GQAは、Key/Valueヘッドの数を減らすことでKVキャッシュのサイズを圧縮します。2.72倍の削減は確かに大きいです。ですが、この数字をひっくり返してみてください――「GQA(最新の圧縮手法)を使っても、KVキャッシュは依然として最も大きいオンチップメモリ消費者」です。

論文は明確にこう述べています:「性能と効率は、ますますKVキャッシュによって支配される。」

GQA、MQA(Multi-Query Attention)、量子化したKVキャッシュ――帯域ギャップを狭めるための技術は進化し続けています。とはいえ、どれも「壁を薄くする」だけです。誰も「壁を消す」ことはできていません。コンテキスト長がKVキャッシュを通じてメモリを支配する、という構造は、Attention機構が使われている限り変わりません。

壁の形態マップ:アーキテクチャは変わるが、壁は残る

3つの論文を既存アーキテクチャと並べて整理すると、メモリのボトルネックの全体像が見えてきます:

アーキテクチャ 壁の形 何がボトルネックになるか 2026年の対策
GPU メモリ帯域 DRAM ⇔ 計算データ転送 HBM、GDDR7、キャッシュ階層
ニューロモーフィック メモリ面積/リーク SRAMがチップ面積とエネルギーを支配 STT-MRAMへの置き換え(問題は残る)
エッジNPU メモリリフレッシュ eDRAMのKVキャッシュ維持コスト SHIELD:ライフサイクルに基づくリフレッシュ
組み込みTransformer メモリ占有 オンチップ上のKVキャッシュのフットプリント GQA、パワーゲーティング
PIM 計算精度/柔軟性 アナログ計算のSNRが制限 混合精度、デジタルPIM

「壁の形」の列を見てください。帯域、面積、リフレッシュエネルギー、占有、計算精度――すべて異なります。ですが、それらのどれもが「メモリに起因するボトルネック」です。

アーキテクチャを変えると、壁の形も変わります。ですが、壁そのものは消えません。

光学コンピューティングだけが、異なる根本原理を持つ

上記の各アーキテクチャはすべて、電子によるデータ転送を前提にしています。電子を動かすにはエネルギーが必要であり、配線にはRC遅延があります。

光学コンピューティングは、この前提を変えます。光子には質量も抵抗もなく、伝搬コストはほぼゼロです。PRISM(arXiv:2603.21576)は、光学的な類似度計算がコンテキスト長に依存しないため、KVキャッシュのブロック選択をO(n)からO(1)に減らしました。

2026年のフォトニクス研究も着実に進展しています:

  • 非揮発性フォトニクス(arXiv:2604.08637):ナノ構造化したSb₂Se₃の相変化材料により、挿入損失の抑制94%と、100M+書き込みサイクルの耐久性を達成。 「光でデータを保存する」は、実用に近づいています。
  • Photonic KAN(arXiv:2604.08432):標準的な通信コンポーネント(MZI、SOA、VOA)から作られた光ニューラルネットワーク。4つのモジュールで非線形分類における精度98.4%を達成。カスタムチップなしの光学AIです。

とはいえ、光にも壁はあります。非線形演算には電気光学変換が必要で、光子は止まってはいられません――「メモリ」には材料メカニズムが必要です。光は根本的には「転送の壁」を回避できますが、「保存の壁」からは逃れられません。

壁は変化するが、決して死なない

「メモリの壁」は1995年にWulfとMcKeeによって造られました。当初は、プロセッサとDRAMの間の速度差が広がっていくことを指していました。30年後、その定義自体が拡張されています。

2026年の現実:制約は単に帯域だけでなく、面積、リフレッシュエネルギー、占有、計算精度として現れています――異なるアーキテクチャに対して異なる形で現れるのです。この3つの論文が一貫して示しているのは、どのアーキテクチャも「メモリ起源のボトルネック」から逃げられないということです。

その壁は殺せなかった。しかし、その解剖学的構造が次第に見え始めている。各建築において壁がどの形を取るのかを理解することは、最適な対抗策を明らかにする。SHIELDのライフサイクルに基づくリフレッシュ、TRAPTIの時間的メモリ分析、GQAのKVキャッシュ圧縮――壁を消すのではなく、それに適合するように形作られたツールを用いる。これが、2026年時点で最も現実的なアプローチだ。

参考文献

  • 「Memory Wall is not gone: A Critical Outlook on Memory Architecture in Digital Neuromorphic Computing」(Yousefzadeh ほか, arXiv:2604.08774)
  • 「SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs」(Zhang & Fong, arXiv:2604.07396)
  • 「TRAPTI: Time-Resolved Analysis for SRAM Banking and Power Gating Optimization in Embedded Transformer Inference」(Klhufek ほか, arXiv:2604.06955, IJCNN 2026)
  • 「PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection」(arXiv:2603.21576)
  • 「nanostructured phase-change materials によって可能になった不揮発性フォトニクスの耐久性の向上」(arXiv:2604.08637)
  • 「標準的なテレコム用非線形モジュールを用いた小規模フォトニック・コルモゴロフ=アーノルド・ネットワーク」(arXiv:2604.08432)
  • 「Hitting the Memory Wall: Implications of the Obvious」(Wulf & McKee, ACM SIGARCH, 1995)