要点

Claude Codeが2か月間、品質の低い結果を出しているとの不満が多かったが、Anthropicのポストモーテムでは原因は基盤モデルではなくハーネス側の問題だったと判明した。
取り上げられた重要な事例では、1時間以上アイドルになったセッションから過去の思考をクリアしてレイテンシを下げるための変更が行われたものの、バグにより以後のセッション全体で毎ターンその動作が繰り返され、忘れっぽく繰り返すように見える結果になった。
著者は、長時間アイドルのセッションに後から戻って使うような実ユーザの運用が、こうしたハーネスの不具合によって特に大きく影響され、プロンプトに費やす時間が増えることもあると述べている。
著者は、エージェント型システムの開発者にとって本ポストモーテムの内容が重要だと主張しており、モデルの非決定性を別としても、ハーネスのバグは複雑でユーザー体験に直接的な悪影響を与えうる点を強調している。

Simon Willison’s Weblog

提供: Honeycomb — AIエージェントは予測不能に振る舞います。実際に何が起きたのかをデバッグするのに必要な文脈を手に入れましょう。ブログを読む

2026年4月24日 - リンクブログ

最近のClaude Codeの品質レポートについてのアップデート (via) 過去2か月の間、Claude Codeが提供していた品質が低いという苦情の件数が多かったのは、実際の問題に裏付けられていました。

モデルそのものが原因ではありませんでしたが、Claude Codeのハーネス（実行基盤）における3つの別々の問題が、複雑ではあるものの重大な問題を引き起こし、ユーザーに直接影響していました。

Anthropicのポストモーテムでは、これらを詳しく説明しています。特にこれが私の目を引きました:

3月26日、ユーザーがそれらのセッションを1時間以上放置していた場合に、セッションからClaudeの古い思考を消去する変更を出荷しました。これにより、ユーザーがそのセッションを再開したときのレイテンシを減らすことが目的でした。

しかしバグによって、この処理がセッションの残りの間ずっと、毎ターン発生し続けるようになってしまい、1回だけで済まず、Claudeが忘れっぽくて繰り返しているように見える原因になりました。

私はよくClaude Codeのセッションを、1時間（あるいは多くの場合1日、あるいはそれ以上）放置してから戻ってきます。今は、そのようなセッションが11個あります（ps aux | grep 'claude 'によると）。そして先日は、さらに数十個を閉じた後の数です。

私はこれらの「古くなった（stale）」セッションの方で、最近始めたセッションよりも多くの時間をプロンプト作成に費やしていると見積もっています！

エージェント型システムを作っているなら、この文章を細かく読む価値があります。たとえモデル自体の本来的な非決定性を脇に置いたとしても、ハーネスに影響するバグは非常に複雑です。

2026年4月24日 2026年4月24日の1:31 amに投稿