私たちは、巨大企業におけるAI導入の指標が紙の上では良好に見える段階に入っています。しかし新しい問題が、静かに形になりつつあります――実際に投入されているエージェントをどう統治するのか、誰も本当のところ分かっていないのです。
私が見ている成熟曲線は次の通りです:
ステージ1:実験。チームがいくつかのエージェントを立ち上げ、結果を見て、盛り上がる。
ステージ2:増殖。エージェントが部門間に広がる。営業は1つ。サポートは3つ。マーケティングは5つを動かしている。DevOpsは2つをテストしている。
ステージ3:混乱。どのエージェントが稼働しているのか誰も分からない。どんな指示を実行しているのか、誰が所有しているのか。努力が重複していないか。設定が最新かどうかも分からない。
重大なAIプログラムを持つ中堅〜大企業の多くは、まさに今ステージ3にぶつかっています。ステージ3向けのツールは、まだ実質的に存在していません。
私が繰り返し目にするいくつかの兆候:
- 顧客向けのエージェントが、8か月前に書かれて一度も見直されていないシステムプロンプトを実行している
- 中央の在庫(インベントリ)がないため、複数のチームがそれぞれ独自に、同じ問題を解くエージェントを作ってしまっている
- パイロットのために立ち上げたのに、決して廃止(デコミッション)されず、クレジットを消費し続け、時々実際のユーザーに応答してしまう
- 何かがうまくいかなかったときの監査証跡がない。モデルが幻覚を見たからなのか、それとも先週火曜日に誰かが指示を変更したからなのか?
ビルド側のツール(LangChain、LangGraph、Claudeなど)は非常に優れており、ますます良くなっています。一方で、本番環境でエージェント群(フリート)を実際に運用・管理する必要があるAIディレクターやAI責任者向けの、実行(run)側のツールはほとんど存在しません。
私たちはCaliberでこの課題に取り組んでいます。構造化されたAIエージェントのセットアップの土台として、コミュニティにオープンソースのリポジトリを提供しました(コメント欄にリンク)。そして、この移行を乗りこなそうとしているAIリーダーシップの立場の方なら、caliber-ai.dev のニュースレターが、まさにこの運用レイヤーを扱っています。
[link] [comments]




