ClawVM: Harness-Managed Virtual Memory for Stateful Tool-Using LLM Agents

arXiv cs.AI / 4/14/2026

📰 NewsDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

Key Points

  • ClawVMは、ステートフルなツール使用LLMエージェントに対して、コンテキストウィンドウを「作業メモリ」として扱う際の残存性・耐久性・状態破損といった失敗を減らすための仮想メモリ層を提案しています。
  • 既存のハーネス/実行基盤ではレジデンシーや永続化がベストエフォートで、コンパクション後の状態消失、リセット時のフラッシュ抜け、破壊的なライトバックなどのポリシー制御可能な障害が再発すると述べています。
  • ClawVMは「型付きページ」と最小限の忠実度不変条件、トークン予算下でのマルチ解像度表現、ライフサイクル境界ごとの検証付き書き戻しにより、残存性と耐久性を決定的かつ監査可能にすることを狙います。
  • 合成ワークロード、12件の実セッショントレース、アドバーサリアルなストレステストで、忠実度セットがトークン予算内に収まる場合にポリシー制御可能な障害をすべて排除し、1ターンあたり中央値<50マイクロ秒のオーバーヘッドを追加したと報告しています。

Abstract

Stateful tool-using LLM agents treat the context window as working memory, yet today's agent harnesses manage residency and durability as best-effort, causing recurring failures: lost state after compaction, bypassed flushes on reset, and destructive writeback. We present \textsc{ClawVM}, a virtual memory layer that manages state as typed pages with minimum-fidelity invariants, multi-resolution representations under a token budget, and validated writeback at every lifecycle boundary. Because the harness already assembles prompts, mediates tools, and observes lifecycle events, it is the natural enforcement point; placing the contract there makes residency and durability deterministic and auditable. Across synthetic workloads, 12 real-session traces, and adversarial stress tests, \textsc{ClawVM} eliminates all policy-controllable faults whenever the minimum-fidelity set fits within the token budget, confirmed by an offline oracle, and adds median <50 microseconds of policy-engine overhead per turn.