重大な質問です。プロダクション環境でエージェントを運用している場合(カスタマーサポートボット、コーディングアシスタント、データパイプラインなど)、午前3時に壊れたらどうなりますか?
従来のステータスページはHTTPエンドポイントを追跡します。モデルプロバイダ、エージェントのレイテンシ、推論ループ、コンテキスト制限は理解しません。いわゆる「部分的な障害」では、実際の問題がGPT-5.4のタイムアウトなのか、RAGパイプラインが詰まっているのかといったことをユーザーに何も伝えられません。
私は現在、エージェント自身にステータスページの管理を自律させることを検討しています。これをやっている別のステータスページは見たことがなくて、すごく気に入っています。
私はエージェントを監視するのにそれを使っています。メール処理、タスク実行、コードのデプロイを追跡します。失敗を検知するとAPI経由でインシデントを作成し、復旧したら解決します。
皆さんはこれをどう扱っていますか?社内のアラートだけですか、それともエンドユーザーにもエージェントの健全性が見えるようにしていますか?
[link] [comments]