LLM向けの「Semvec」を作った：一定コストのセマンティック・メモリ（テスター募集中！）

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者はSemvecとして、無制限のチャット履歴を固定サイズのセマンティック状態と短期/中期/長期の階層メモリで置き換えるアプローチを紹介しています。
Semvecは、各LLM呼び出しのトークンコストとレイテンシを一定に保ち、会話の初期ターンと後期ターンで入力フットプリントを同一にすることを目指しています。
48ターンのベンチマークでは、約76%のトークン削減を達成しつつ、意思決定の構造、エラーパターン、過去文脈へのアクセスを維持できるとされています。
OpenAI互換のLLM向けにドロップインで使えるチャットプロキシとして提供され（vLLM、Ollama、OpenRouterなど）、さらにClaude CodeやCursor向けのMCPサーバを通じてコーディングエージェントの記憶も扱えます。
本プロジェクトは、RAGパイプラインやチャットボットを作る開発者、あるいはIDE/自律コーディングのセッション記憶を改善したい開発者にテストを募集しています。

みなさんこんにちは、

LLMアプリケーション、自律エージェントを作っている方、あるいはコードを書くのにClaude/Cursorを使っている方なら、おそらくこの壁にぶつかったことがあるでしょう。会話履歴が無限に膨らみ、トークンコストが爆発し、レイテンシが跳ね上がり、しかも結局、LLMが最初の文脈を忘れ始めます。

そこで私はSemvecを作りました。無制限に増え続ける会話履歴を、固定サイズのセマンティック状態（semantic state）と、階層化されたコンテンツに応じたメモリ（短期/中期/長期）を組み合わせたものに置き換えます。

結果：すべてのLLM呼び出しのコストとレイテンシが一定に保たれます。Turn 10もTurn 10,000も、入力のフットプリントはまったく同じです。48ターンのベンチマークでは、構造化された意思決定へのアクセス、エラーパターン、過去の文脈をすべて保持したまま、トークンをおよそ76%削減します。

ここで得られるのは以下です：

- 固定サイズに圧縮されたコンテキスト：成長が止まる、トークン削減済みのLLMコンテキスト。

- 選択的に忘れる階層メモリ：頻繁に参照される古い記憶は、まったく触れられない新しい記憶より長く生き残ります。

- ドロップインのチャットプロキシ：あらゆるOpenAI互換LLM（vLLM, Ollama, OpenRouter）をラップするだけで、圧縮コンテキストが無料で手に入ります。

- コーディングエージェントのコンパクション（MCP）：コーディングセッションをまたいで持続するメモリ。Claude Code & Cursor向けのMCPサーバが、最初から同梱されています！

- マルチエージェントの連携：semvec.cortexにより、複数のエージェントが集約された視点を共有し、状態ベクトルを交換できます。

現在、テスターと、RAGパイプラインやチャットボットを作っている開発者からの率直なフィードバックを募集しています。あるいは、Claude CodeやCursor IDEのメモリをアップグレードしたいだけでも構いません。

以下のコマンドでインストールできます：pip install semvec（Python 3.10〜3.14に対応）。

マルチエージェントやMCPの機能を試したい場合は、pip install "semvec[cortex,coding]" を使ってください。

みなさんの考え、フィードバック、そして想定外のケースでのバグ報告をぜひ聞かせてください！どう思うか教えてください

AI Business

日経XTECH

日経XTECH

Dev.to

Dev.to