Cartridges と STILL のニューラル KVキャッシュ圧縮に関するオープンソースのシングルGPU再現実装(P)

Reddit r/MachineLearning / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、長文コンテキスト推論とニューラルKVキャッシュ圧縮向けに、シングルGPUで動かせる2つの再現実装をオープンソース化し、実行可能なベンチマークコードと読みやすい実装を提供しています。
  • 「cartridges」リポジトリは、元論文に基づくコーパス固有の圧縮KVキャッシュを再現し、データセットに合わせたKVキャッシュの再利用/圧縮を主眼としています。
  • 「STILL」リポジトリは、再利用可能なニューラルKVキャッシュ圧縮手法を再現し、フルコンテキスト推論、単純なトランケーション、cartridgesとの比較も含みます。
  • この取り組みは、論文やブログの要約だけに頼らず、アイデアを検証・実験しやすくすることを目的としています。
  • これらの公開は、長文コンテキスト推論、メモリ圧縮、そしてKVキャッシュ再利用に関するシステム上のトレードオフに関心のある実務者に向けられています。

長いコンテキスト推論 / KVキャッシュのコンパクションに関する最近の2つのアイデアを実装し、両方の再現をオープンソースにしました:

目的は、論文/ブログの要約だけでなく、ベンチマークコードと読みやすい実装を用意することで、アイデアを簡単に検証して実行できるようにすることでした。

大まかに:

  • cartridges はコーパス固有の圧縮KVキャッシュを再現します
  • STILL は再利用可能なニューラルKVキャッシュのコンパクションを再現します
  • STILLリポジトリはさらに、フルコンテキスト推論、切り詰め(truncation)、および cartridges と比較します

元の論文 / ブログは以下です -

長いコンテキスト推論、メモリ圧縮、または KVキャッシュの再利用に関する実用的なシステム上のトレードオフに関心がある方には役立つと思います。

提出者: /u/shreyansh26
[link] [comments]