自律的なパブリッシング・チェーンが50時間ダウンした──ほとんど気づかなかった
Dev.to / 2026/6/3
💬 オピニオンDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research
要点
- 著者のエージェント型パブリッシング・パイプラインは15分ごとの公開を想定していたが、公開ログが進まないまま50時間停止しても発見が遅れた。
- LLMの「スケジュール起床」と、常時稼働の決定論的ディスパッチ/シムは別コンポーネントなので、片方が正常に見えてももう片方が死ぬことがあると分かった。
- ログから、決定論的ループ側の複数サービスが同時刻に停止しており、親プロセスが殺された可能性が示唆された。起床スケジュールと検証(verifier)は動き続けていた。
- モニタリングは失敗しうる環境の外側から行う「クロスチャネル」であるべきだ、という結論に至った。というのも同一マシン上のin-box監視は、同じプロセスツリーの死とともに共倒れしうるため。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



