KVキャッシュを光で読んだらメモリ転送が16分の1になった

Qiita / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • LLM推論で重要なKVキャッシュを、光を用いて読み出す方式によりメモリ転送量(/負荷)を従来比16分の1に削減できるとする内容です。
  • 通常の電子的なメモリ読み出しに代えて光学的な読み出し(光インターコネクト/フォトニクス系のアプローチ)を使うことで、データ転送ボトルネックを大きく緩和する狙いがあります。
  • 対象はLLM(KVキャッシュ、推論時の再利用情報)であり、モデル側の学習ではなく推論システムの効率改善に直結するテーマです。
  • 半導体/ハードウェア観点(タグにハードウェア・半導体)から、生成AIの性能・コストに影響しうる基盤技術の進展として位置付けられます。
  • 投稿日時点での技術検証・示唆として、今後の推論アクセラレータ設計やメモリアーキテクチャに波及する可能性が示されています。
KVキャッシュを光で読んだらメモリ転送が16分の1になった LLMの長文推論で何がボトルネックか。計算ではない。メモリ帯域だ。 Transformerのデコードステップでは、1トークン生成するたびにKVキャッシュ全体をスキャンする。コンテキスト長nに対してO(n)のメモリ...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →