もしこのエージェントが本当に自らの失敗から学んだのなら、“もっとコンテキストを足すだけ”という方法は正式に終わりを迎えた。
私たちはこのエージェントが非決定論的だと思っていた。そうではなかった。私たちには見えない形で一貫して間違っていた――後知恵を取り入れるまで。
ツールを使用するエージェントを構築し、すべての実行を記録して再生するようHindsightを組み込んだ。
実際に何が変わったのか:
• Before: 同じ入力 → 異なるツールの選択 → ランダムな失敗
• After: 同じ入力 → 同じ判断 → 安定した出力
Not because the model changed. Because the state stopped drifting.
• メモリを「より多くのトークンとして扱うのをやめた」
代わりに、入力、ツール呼び出し、出力を含む完全な実行トレースを保存した。
• ツールの応答を正規化した
これだけでほとんどの“ランダム性”を除去した(LLMsは一貫性のないスキーマを嫌う)。
• 失敗した実行を再生した
後知恵は、決定がどこで分岐したのかを正確に示した――一歩ずつ。
• これらの失敗をフィードバックした
エージェントは次のようなパターンを学んだ:
“空の結果を再試行しない”
“キーが存在する場合はルックアップを検索より優先する”
• 行動は実際には時間とともに変化した
ループを止めた。間違ったツールを選ぶのを止めた。予測可能になった。
これはRAGではなかった。
これはより大きな文脈でもなかった。
これは経験 → フィードバック → より良い意思決定だ。
エージェントを構築しているなら、要点はシンプルだ:
彼らにはより多くのメモリは必要ない。使える経験が必要だ。
この情報は、エージェントスタックにメモリを追加しようとしているなら保存しておいてください。
あなたのエージェントが自らの失敗から「学んだ」最も驚くべきことは何ですか?
[GitHubリポジトリリンク]











