O(1) KVキャッシュ・ブロック選択のためのフォトニック・チップを設計— 944倍高速、1MコンテキストでGPUのスキャンに比べエネルギー18,000分の1

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この投稿では、長いコンテキストのLLMにおけるKVキャッシュ・ブロック選択は、各デコードステップのたびにGPUがHBM上の全N個のブロック署名を走査するため、依然としてO(N)のボトルネックだと論じている。
  • PRISMというフォトニック・チップのコンセプトを提示し、デジタルによる走査を、光学的なブロードキャストへ置き換える。具体的には、クエリを光として送信し、受動的なスプリッタがそれを全ブロックへ並列に分配して、同時に類似度計算を行う。
  • この手法は、保存された署名の重みを用いて全ブロックの類似度スコアを一度に計算することで、コンテキスト長Nに対して選択コストをO(1)にできると主張する。
  • 報告されている結果として、ブロック選択が約944倍高速、1MコンテキストでのGPU走査に対してエネルギーが約18,000分の1低いこと、また100MコンテキストでQuestより全デコードが約5.3倍高速(batch=128、Qwen2.5-7B)であることが挙げられている。
  • 著者は、フォトニックの性能はデバイス物理に基づくシミュレーションによるもので、現時点ではチップはまだ試作されていない一方、リポジトリには評価のために当面動作するGPUのみのブロックセレクタが含まれていると述べている。
O(1) KVキャッシュブロック選択のためのフォトニックチップを設計 — 944倍高速、1MコンテキストでのGPUスキャンより18,000倍少ないエネルギー

私はナノフォトニクスのPhD学生で、フォトニックチップならKVキャッシュのスキャンというボトルネックを解決できると思っています。

Quest/RocketKVのようなブロックスパース手法は取得するブロック数を減らしますが、それでもデコードの各ステップでHBMからN個すべてのブロック署名をスキャンします。このスキャンはO(N)で、H100で1Mコンテキストの場合、クエリあたり約8.5μsです。バッチ配信ではこれが支配的なコストになります。

PRISMはスキャンを光学的ブロードキャストで置き換えます。クエリを光として符号化 → パッシブ・スプリッタでN個のブロックすべてへ同時に分配 → 各ブロックの署名をMRRの重みとして格納 → すべての類似度スコアを同時に計算します。Nに関わらずO(1)。

1Mコンテキストでは、選択が944倍高速、エネルギーは18,000分の1。100Mでは、Quest(batch=128、Qwen2.5-7B)より総デコードが5.3倍高速。

チップを実作したわけではありません。フォトニックな数値はTFLN上のデバイス物理のシミュレーションです。GPUスキャンのベンチマークは実測値です。このリポジトリには、現在動作するGPUのみのブロックセレクタ(100%ニードルリトリーバル、LongBench-v2の低下0%)が含まれています。

コード+論文:https://github.com/hyoseokp/PRISM

提出者: /u/Exact-Schedule-3442
[リンク] [コメント]