O(1) KVキャッシュ・ブロック選択のためのフォトニック・チップを設計— 944倍高速、1MコンテキストでGPUのスキャンに比べエネルギー18,000分の1

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この投稿では、長いコンテキストのLLMにおけるKVキャッシュ・ブロック選択は、各デコードステップのたびにGPUがHBM上の全N個のブロック署名を走査するため、依然としてO(N)のボトルネックだと論じている。
PRISMというフォトニック・チップのコンセプトを提示し、デジタルによる走査を、光学的なブロードキャストへ置き換える。具体的には、クエリを光として送信し、受動的なスプリッタがそれを全ブロックへ並列に分配して、同時に類似度計算を行う。
この手法は、保存された署名の重みを用いて全ブロックの類似度スコアを一度に計算することで、コンテキスト長Nに対して選択コストをO(1)にできると主張する。
報告されている結果として、ブロック選択が約944倍高速、1MコンテキストでのGPU走査に対してエネルギーが約18,000分の1低いこと、また100MコンテキストでQuestより全デコードが約5.3倍高速（batch=128、Qwen2.5-7B）であることが挙げられている。
著者は、フォトニックの性能はデバイス物理に基づくシミュレーションによるもので、現時点ではチップはまだ試作されていない一方、リポジトリには評価のために当面動作するGPUのみのブロックセレクタが含まれていると述べている。

O(1) KVキャッシュブロック選択のためのフォトニックチップを設計 — 944倍高速、1MコンテキストでのGPUスキャンより18,000倍少ないエネルギー

私はナノフォトニクスのPhD学生で、フォトニックチップならKVキャッシュのスキャンというボトルネックを解決できると思っています。

Quest/RocketKVのようなブロックスパース手法は取得するブロック数を減らしますが、それでもデコードの各ステップでHBMからN個すべてのブロック署名をスキャンします。このスキャンはO(N)で、H100で1Mコンテキストの場合、クエリあたり約8.5μsです。バッチ配信ではこれが支配的なコストになります。

PRISMはスキャンを光学的ブロードキャストで置き換えます。クエリを光として符号化 → パッシブ・スプリッタでN個のブロックすべてへ同時に分配 → 各ブロックの署名をMRRの重みとして格納 → すべての類似度スコアを同時に計算します。Nに関わらずO(1)。

1Mコンテキストでは、選択が944倍高速、エネルギーは18,000分の1。100Mでは、Quest（batch=128、Qwen2.5-7B）より総デコードが5.3倍高速。

チップを実作したわけではありません。フォトニックな数値はTFLN上のデバイス物理のシミュレーションです。GPUスキャンのベンチマークは実測値です。このリポジトリには、現在動作するGPUのみのブロックセレクタ（100%ニードルリトリーバル、LongBench-v2の低下0%）が含まれています。

コード＋論文：https://github.com/hyoseokp/PRISM

提出者： /u/Exact-Schedule-3442
[リンク] [コメント]

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

世界半導体売上高、単月で初めて800億ドル突破 26年1月

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

O(1) KVキャッシュ・ブロック選択のためのフォトニック・チップを設計— 944倍高速、1MコンテキストでGPUのスキャンに比べエネルギー18,000分の1

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供