会話の途中で“実際に学習する”LLM向け永続メモリシステム

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 記事では、毎回のターンでゼロから始まるのではなく、進行中の会話の中で学習できることを目指した「MDA」というLLM向けの永続メモリ手法が説明されています。
  • MDAは知識を連想的なエンティティネットワークとして表現し、Ojaルールでリアルタイムに更新することで、バックプロパゲーションや再インデックスを避けています。
  • 類似度ベースの検索(一般的なRAG)ではなく、コンセプトグラフを活性化して文脈を取り出すことで、より“つながり”を重視した推論を狙っています。
  • システムはモデル非依存でCPUファーストを掲げ、Ollama/OpenAI/Anthropicなど複数のLLM提供に対応し、MCPサーバーとして提供されるほか、バッチ処理ではGPUアクセラレーションもサポートするとしています。
  • 著者は合成ベンチマークでMDAがRAGよりも総合精度や特に長いターンでの保持性能で優れると報告し、複数エージェントが同じメモリインスタンスを共有して協調的に推論できるとも述べています。
Persistent memory system for LLMs that actually learns mid-conversation

すべてのLLMの会話はゼロから始まります。RAGは役立ちますが、いま起きていることから学習することはできません。MDAは、その問題を解決しようとする私の試みです。

MDAは知識を連想的なエンティティネットワークとして符号化し、Oja則によってリアルタイムに更新します(バックプロパゲーションなし、再インデックスなし)。また、類似検索ではなく概念グラフを活性化することでコンテキストを取得します。CPUを優先して動作し、モデル非依存で、すぐにOllama/OpenAI/Anthropicで動きます。MCPサーバーとして提供されており、バッチ処理向けにGPUアクセラレーションもサポートしています。

私が本当に面白いと感じている点の1つは、複数のエージェントが同じMDAインスタンスを共有し、共通のメモリについて推論できることです。エージェントAが何かを学ぶと、エージェントBはそれを検索するのではなく、連想的なトラバーサル(連想的な辿り)によって受け取ります。概念ネットワークが両者を結びついているためです。検索というより、共有された直感のような感覚になってきます。

https://preview.redd.it/tfo3viz76xyg1.png?width=900&format=png&auto=webp&s=f09d4a3f8a2c0e39316f5a655904d04f6815a401

ベンチマークについて:これらの数値は、コミュニティが構築した評価ではなく、私が自分で書いた合成質問から得たものです。方向性を示すものとして受け取ってください、決定的なものだとは思わないでください。MDAはRAGを倒すためのものではありません。RAGやLLMが取りこぼしている部分をカバーするのが目的で、それらを置き換えるためではありません。あなた自身のテストを実行して、別の結果が出たなら、ぜひとも本当に聞いてみたいです。

RAG(ChromaDB + bge-large-en-v1.5) MDA
全体の正確さ 67.5% 82.5%
クエリあたりのコンテキスト ベースライン 3.1×少ない
200ターン時点での保持 0% 92%
A-early(ターン1〜10) 70% 80%
B-mid(ターン25〜44) 90% 100%
C-late(ターン100〜119) 90% 100%
クラスタ間 20% 50%

推論モデル:Qwen3 6-35B-A3B / ジャッジモデル:Claude Haiku

MDAがうまくできていると思う点、あるいは不足していると思う点があれば、ぜひ共有してほしいです。

ソースコード: https://github.com/rangle2/mda

submitted by /u/One-Pain6799
[link] [comments]