Claude Codeのキャッシュに関する混乱:Anthropicがデフォルトを調整したが、割当はなお減っていく
開発者レポートによれば、長時間セッションがいま使用量をはるかに速く消費する
Anthropicは先月、Claude CodeのプロンプトキャッシュのTTL(time to live/有効期限)を、多くのリクエストで1時間から5分に引き下げたが、ユーザーが割当がより速く減っていると報告しているにもかかわらず、これによってコストが増えることはないはずだと述べた。
ユーザーのSean Swansonはバグレポートを投稿しており、Anthropicが2月1日ごろにClaude Codeのコンテキストに対する1時間キャッシュを導入し、その後3月7日ごろに5分キャッシュへ戻したことを示している。「5mのTTLは、Claude Codeの利用状況を特徴づける長時間セッションで高いコンテキストを扱うケースに対して、不釣り合いなほど厳しい罰を与えている」とSwansonは述べた。
AIのコーディング支援ツールやエージェントを使う場合、コンテキストはユーザーのプロンプトに追加で送られるデータであり、たとえば既存のコードや背景となる指示などが含まれる。コンテキストはAIの精度を高める一方で、より多くの処理が必要になる。
Claude プロンプトキャッシングは、コンテキストや背景情報など、これまでに使ったプロンプトを再処理するのを回避する。キャッシュには5分または1時間のTTLが設定される。5分キャッシュに書き込む場合はトークンコストが25%高く、1時間キャッシュに書き込む場合は100%高いが、キャッシュから読み取ると基本価格の約10%程度で済む。
Bun JavaScriptランタイムの開発者で、現在はAnthropicで働いているJarred Sumnerは、分析について「良い探偵の仕事」だと認めつつも、5分間キャッシュに戻したことで、Claude Codeが「より安くなった」と主張した。理由として「Claude Codeのリクエストのうち、意味のある割合が、ワンショット呼び出しであり、キャッシュされたコンテキストが一度だけ使われて、その後再訪されない」ためだという。Sumnerは、Claude CodeクライアントがキャッシュTTLを自動的に決定しており、グローバル設定を行う計画はないと述べた。
Swansonはこれに応じて分析を修正し、サブエージェントを使うセッションは、すぐにやり取りするため「キャッシュがほとんど期限切れにならない」ことから、5分間キャッシュの低い書き込みコストの恩恵を受ける点では同意した。だが彼は、6か月以上にわたり月200ドルのサブスク加入者であり、3月までは割当(クォータ)の上限に到達したことがなかったという。「『追加の燃焼率(extra burn rate)』が、かつて素晴らしかったサービスを使い物にならなくしている」と彼は語った。
もう1つの要因は、Claude Opus 4.6またはSonnet 4.6モデルを使う有料プランで利用可能な大きな100万トークンのコンテキストウィンドウがコストを押し上げることだ。特にキャッシュミスがある場合に顕著になる。Claude Codeの開発者Boris Chernyは、「1Mトークンのコンテキストウィンドウを使うときのプロンプトキャッシュミスは高くつく……。1時間以上コンピュータを放置してから、古いセッションを続けると、しばしばキャッシュミスが丸ごと発生することになる」と述べた。彼は、Anthropicがデフォルトで40万トークンのコンテキストウィンドウを調査しており、希望があれば100万トークンのオプションも用意するという。これはすでに設定項目が存在している。
Chernyは、ユーザーが「大量のスキルを取り込む、あるいは複数のエージェントやバックグラウンドの自動化を動かす」ため、より大きなコンテキストが今では一般的になっていると述べた。
- Anthropicが裸になる? Claude Codeのソースを誤って公開
- AMDのAIディレクターが、前回の更新以降Claude Codeが賢さも怠け度も悪化していると非難
- Claude Codeは、あまりに多くのコマンドを与えると安全性ルールを回避する
- AnthropicのClaudeがAI市場の頂点へ向けて這い上がっている
一部の開発者は、キャッシュの作り直し(再構築)とキャッシュミスが、Claude Codeのクォータ枯渇の主要因だと確信している。枯渇はすでに、Proユーザー(月20ドル)が5時間で最大でも2回のプロンプトしか得られないところまで到達している。キャッシュコードには複数のバグが報告されており、そのためあるユーザーは次のように述べている。「それらが直されるまで、5分か1時間かという議論は完全に無意味だ。数字が根本から完全に狂っているからだ」
キャッシュ最適化への注目が高いことは、表の裏側で見ると、Anthropicのクォータが単に以前よりも少ない処理時間を買わせているだけではないか、という証拠にもなりうる。
Swansonだけが、Claudeのパフォーマンスが落ちていると報告しているわけではない。例えば、エンタープライズ向けチームプランのユーザーはこう言った。「3月はOpusを一日中使えて、非常に良い結果が出ていました。3月の最終週以降、そして4月に入ってからは、2時間以内にセッション使用量の上限まで到達してしまうセッションがあり、その後は過剰に考え込むループに固まってしまい、同じことに気づくやり直しが何度も続きました。『でも実際にはxをやる必要がある』という趣旨の段落が、微妙なバリエーション付きで何十個も出てきました」。これは、AMDのAIディレクターからの同様のコメントとも呼応している。
キャッシュ最適化は重要かもしれないが、これら報告されている問題のすべての原因を説明できる可能性は低いようだ。®




