長いコンテキスト推論 / KVキャッシュのコンパクションに関する最近の2つのアイデアを実装し、両方の再現をオープンソースにしました:
- Cartridges: https://github.com/shreyansh26/cartridges
- STILL: https://github.com/shreyansh26/STILL-Towards-Infinite-Context-Windows
目的は、論文/ブログの要約だけでなく、ベンチマークコードと読みやすい実装を用意することで、アイデアを簡単に検証して実行できるようにすることでした。
大まかに:
cartridgesはコーパス固有の圧縮KVキャッシュを再現しますSTILLは再利用可能なニューラルKVキャッシュのコンパクションを再現します- STILLリポジトリはさらに、フルコンテキスト推論、切り詰め(truncation)、および cartridges と比較します
元の論文 / ブログは以下です -
cartridges- https://arxiv.org/abs/2506.06266STILL- https://www.baseten.co/research/towards-infinite-context-windows-neural-kv-cache-compaction/
長いコンテキスト推論、メモリ圧縮、または KVキャッシュの再利用に関する実用的なシステム上のトレードオフに関心がある方には役立つと思います。
[link] [comments]



