ほとんどの「AIエージェント」デモは、ちょうど1人がそれらを使っているからうまくいきます——通常は、それを作った人です。
しかし、実運用は別です。現実のユーザーは不正な入力を送り、APIはレート制限をかけ、モデルは誤ったツールを選び、ベクターストアは90日目に陳腐化した結果を返し、そして誰かがプロンプトの土台(スキャフォールド)では曲げられない機能を求めてきます。
今の私のクライアント案件の半分は、エージェントのプロトタイプを、実際のユーザーに遭遇しても生き残るものへと仕上げ直すことです。地味な部分——リトライ、冪等性、評価(eval)スイート、可観測性、構造化されたツール入出力——が、実際の開発の80%を占めています。
あなたのエージェントがデモでは動くのに、本番で壊れるのであれば、そのデモは製品ではありません。壊れた原因はリトライでした。




