先週、4月23日のClaude Codeポストモーテムが公開されました。3つのバグ、2か月にわたる出力の劣化、そしてPro加入者全員に対する使用量上限のリセット。
私はそれを2回読みました。2回目は、自分のエージェント用ハーネスのためにメモを書き始めました。
この規模の会社としては異例なほど率直で、プロダクションでAIエージェントを運用するチームがいずれ必ず踏む失敗パターンのチェックリストのように読めます。無料のエンジニアリングレビューとして扱う価値があります。
誰にも見えないデフォルト
3月4日、デフォルトの推論努力が「高」から「中」に下がりました。理由は実在のものでした。「高」モードが、一部のユーザーのUIをフリーズさせていたのです。修正は妥当でした。興味深いのは次の点:オペレーターが見られるノブがないまま出荷され、その後ユーザーが十分に大きく不満を言うまでの1か月、品質が後退しました。
ハーネスにおける未解決の問い:沈黙しているデフォルトはどれだけありますか? 温度0.7は、2024年当時のフレームワークのデフォルトだったから。top-p 1.0は、誰も触っていないから。最大トークン4096は、誰かが一度選んだ数だから。これらはいずれも品質のレバーです。ダッシュボードに表示する価値があるのはどれでしょうか?
ポストモーテムから保存しておくべき一文:「ユーザーは、より高い知能を好み、単純なタスクでは低い努力(労力)を選ぶだろうと言っていました。」デフォルトは、コスト面の懸念を“オプトイン”にし、“オプトアウト”にしないことで、品質を最適化できます。
作業用メモリを食い尽くしたキャッシュルール
3月26日、彼らは“思考キャッシュのクリア”ルールを出荷しました。意図:セッションが1時間以上アイドル状態になったら、推論履歴を一度クリアすること。バグ:そのルールがセッションの残りの間、毎ターンで動いてしまったことでした。セッションはすぐ忘れるように感じられました。ツールの選択が奇妙になりました。モデルが毎ターン文脈を作り直していたため、使用量の上限がより速く減っていきました。
私はこのバグそのものを出荷したことがあります。別のシステムでも、形は同じです。キャッシュ層に対する「小さな最適化」が、あらゆるキャッシュ参照をミスに変えてしまいました。アラートが捕捉するまで、2日間でコストは4倍に上がりました。
チームに持ち込むと役立つ問い:私たちのキャッシュテストは、多ターンの挙動までカバーしていますか?それとも単発のヒット/ミスだけですか?私が尋ねてきた多くのチームは「単発のみ」と答えます。そのギャップを露出させるのにかかるのは午後で済み、四半期分の損失を防げます。
25ワードの上限が知能を3%奪った
4月16日、彼らはシステムプロンプトを追加しました。ツール呼び出し間のテキストを25ワードに制限し、最終応答を100に制限する、というものです。意図は冗長なナレーションを整理することでした。アブレーションテストの後、コーディングタスクで知能が3%低下することを計測し、4日後に元に戻しました。
3%は大したことに聞こえないかもしれませんが、それが私に残っている部分です。プロンプト変更によって品質が3%下がっても、アブレーションを実行していない人には見えません。私たちのうち、どれだけがアブレーションを実行していますか?私がいる多くの部屋での正直な答えは、あまり多くありません。
声を大にして尋ねる価値がある問い:今日システムプロンプトを変更するなら、3%の退行(回帰)を何が検知しますか?
3つのうち2つが教えてくれること
3つのバグのうち2つは、ユーザーが叫ぶまで黙っていました。3つ目は、専用のアブレーションテストをして初めて見えるものでした。この比率が、ポストモーテム全体で最も興味深い線です。
私はプロダクションのエージェントを6つ運用しています。評価のカバレッジは3つに対してしかありません。残り3つは、出力サンプリングと直感でモニタしています。この構成は、おそらく業界の中央値にかなり近いでしょう。
ポストモーテムは、いずれにせよ無料のチェックリストをあなたに渡してくれます。オペレーターに見えるデフォルトのノブ。多ターン会話にわたって追跡するキャッシュヒット率。アブレーション評価でゲートされたシステムプロンプト。3つの失敗パターン、それぞれがあなたの自前のセットアップに対して尋ねると役立つ問いです。
今週、あなたはハーネスをチェックしましたか?
私は実際のビルドからフィールドノートを書いています――AI統合、cron駆動の自動化、そしてプロダクションで壊れる部分。2週間ごとに新しい投稿をrenezander.comに掲載しています。

