87%のコスト削減&サブ3秒レイテンシ:永続Claudeエージェント向け「ウォームキャッシュ」ハーネスを作った

Reddit r/artificial / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、Prompt Caching を最適化してLLMの文脈コストを大幅に下げるため、Claudeの「ウォームキャッシュ」型の永続エージェントハーネス Galadriel をオープンソース化した。
  • 報告されている結果として、100Kトークンの文脈が約11秒から3秒未満になるなどレイテンシが約85%低減され、さらにコストも約87%削減(通常の支出に対して$10/$100)できるというベンチマークが示されている。
  • Galadriel は3層のスタックキャッシュを採用し、ツール定義・システムプロンプト(CLAUDE.md)・末尾の履歴で別々のキャッシュ境界を作ることでキャッシュ再利用を最大化する。
  • MemPalace を統合して永続的なベクターベースのリコール(記憶)を提供しつつ、キャッシュ済みプロンプト部分を壊さないことを狙っているほか、プライベートなサブネット運用を前提に、APIキーとルールのみで動かす設計になっている。
  • 「エージェントの肥大化(agent bloat)」を抑えるための(CLAUDE.md による)エンジニアリング/倫理ガイドラインも組み込まれているとされ、MITライセンスでGitHub公開されるとともにフィードバックを歓迎している。

「金魚の問題」は高くつく。配管を直すことにしました。

ほとんどのClaude実装は、プロンプトキャッシングの最適化をしないため、手元のお金の90%を無駄にしています。私は何か月も前からDiscord上で個人用のエージェントを動かしていて、AWSのインフラとコードベースを管理しています。そしてついに、私はそのハーネスをオープンソースにしました。名前は、メインの個人アシスタントにちなんでガラドリエルと名付けました。

統計

  • コスト: 本来なら使うはずだった金額の100ドルにつき10ドル(OpenClaw/Cursorのワークフローに対してテスト済み)。
  • 速度: レイテンシが85%低下。100Kトークンのコンテキストが11秒から<3秒に。
  • メモリ: 永続的なベクターベースのリコール用に統合MemPalaceを搭載し、キャッシュを壊しません

技術スタック

  • 3層のスタックキャッシング: ツール定義、システムプロンプト(CLAUDE.md)、末尾履歴(Trailing History)それぞれでブレークポイントを分離。
  • プライバシー: プライベートサブネット向けに構築。仲介者なし、メッセージ上限なし。あるのはAPIキーとあなたのルールだけです。
  • 倫理: 「エージェントの肥大化」を潰すための KarpathyCLAUDE.md)ガイドラインを組み込み済み。

あなたが「コンテキスト税」を払うのに疲れて、あなたを覚えているエージェントが欲しいのなら、どうぞ。私の特定のニーズに合わせてDiscord向けにカスタマイズしていますが、コアとなるロジックはガラドリエルが完全に夢のように動くことを保証します。彼女は決して忘れず、厳格なエンジニアリング原則を維持し、あらゆるサイクルを最適化します。

皆さんのフィードバックをぜひお待ちしています!

GitHub(MITライセンス):https://github.com/avasol/galadriel-public

submitted by /u/Phobix
[link] [comments]