みなさんこんにちは、
LLMアプリケーション、自律エージェントを作っている方、あるいはコードを書くのにClaude/Cursorを使っている方なら、おそらくこの壁にぶつかったことがあるでしょう。会話履歴が無限に膨らみ、トークンコストが爆発し、レイテンシが跳ね上がり、しかも結局、LLMが最初の文脈を忘れ始めます。
そこで私はSemvecを作りました。無制限に増え続ける会話履歴を、固定サイズのセマンティック状態(semantic state)と、階層化されたコンテンツに応じたメモリ(短期/中期/長期)を組み合わせたものに置き換えます。
結果:すべてのLLM呼び出しのコストとレイテンシが一定に保たれます。Turn 10もTurn 10,000も、入力のフットプリントはまったく同じです。48ターンのベンチマークでは、構造化された意思決定へのアクセス、エラーパターン、過去の文脈をすべて保持したまま、トークンをおよそ76%削減します。
ここで得られるのは以下です:
- 固定サイズに圧縮されたコンテキスト:成長が止まる、トークン削減済みのLLMコンテキスト。
- 選択的に忘れる階層メモリ:頻繁に参照される古い記憶は、まったく触れられない新しい記憶より長く生き残ります。
- ドロップインのチャットプロキシ:あらゆるOpenAI互換LLM(vLLM, Ollama, OpenRouter)をラップするだけで、圧縮コンテキストが無料で手に入ります。
- コーディングエージェントのコンパクション(MCP):コーディングセッションをまたいで持続するメモリ。Claude Code & Cursor向けのMCPサーバが、最初から同梱されています!
- マルチエージェントの連携:semvec.cortexにより、複数のエージェントが集約された視点を共有し、状態ベクトルを交換できます。
現在、テスターと、RAGパイプラインやチャットボットを作っている開発者からの率直なフィードバックを募集しています。あるいは、Claude CodeやCursor IDEのメモリをアップグレードしたいだけでも構いません。
PyPI: https://pypi.org/project/semvec/
Docs & Quickstart: https://semvec-docs.pages.dev/
以下のコマンドでインストールできます:pip install semvec(Python 3.10〜3.14に対応)。
マルチエージェントやMCPの機能を試したい場合は、pip install "semvec[cortex,coding]" を使ってください。
みなさんの考え、フィードバック、そして想定外のケースでのバグ報告をぜひ聞かせてください!どう思うか教えてください
[link] [comments]
