私がすべての自律的 Claude Code セッションの前に実行するテスト
監督なしで実行される任意のセッションを始める前に、私は1つのテストを行います。コードのテストではなく、コミュニケーションのテストです。
エージェントに故意に曖昧な指示を与え、どう動くかを観察します。
テスト
例えば: 「認証モジュールのエラーハンドリングを改善する」など。
エージェントがすぐにコードを書き始めた場合は、悪い兆候です。曖昧さを解釈して、それを指摘せずにその解釈のまま進んでしまいました。
エージェントが『特定の関数にエラーハンドリングを追加しますか、それともモジュール全体を見直して不足している点を特定しますか?』と尋ねる場合は、良い兆候です。曖昧さを認識しました。
エージェントが『X、Y、そしてZを実行します — 別の範囲を望む場合は教えてください』と述べた場合は、許容されます。解釈を行い、それを透明に述べました。
自律セッションにおける重要性
監督付きセッションでは、誤った解釈をリアルタイムで見つけます。『いいえ、別の意味でした』と言えば、それに沿って修正されます。
自律セッションでは、開始時の誤解がセッション全体に積み重なります。出力を確認する頃には、エージェントはすでに1時間も誤った仮定の上に構築を続けています。
このテストは、このセッションで私のプロンプトがどれだけの正確さを必要とするかを教えてくれます。エージェントが曖昧さを指摘すれば、少し緩めのプロンプトを書き、迷ったときに尋ねることを信頼できます。エージェントが曖昧さを指摘しない場合、私はすべてをより明確にする必要があります。
結果に基づいて行うこと
エージェントが曖昧さを指摘する: 私は出力を明確にした通常のプロンプトを書きますが、言葉を一語一句まで気にしません。エージェントは不明点が出たときに確認します。
エージェントが曖昧さを指摘せずに解釈する: 私は非常に正確なプロンプトを書きます。列挙されたすべてのファイル。すべての出力を定義。すべての制約を明示。エージェントは私が言ったとおり—私が間違って言った場合を含めて—正確に実行します。
これはモデルへの判断ではありません
異なるセッションは、文脈、最近の履歴、CLAUDE.md の内容に応じて挙動が異なります。今日曖昧さを指摘するセッションは、明日にはそうでないかもしれません。重要な場合にのみテストを実行してください。
目的は、エージェントが「良い」か「悪い」かを決定することではありません。特定のこのセッションのために、私のプロンプトがどの程度の正確さを必要とするかを調整することです。
builtbyzac.com 上で Claude Code を自律的に実行した経験から。