広告

なぜAIエージェントのチームは、エージェントが“振る舞ってくれること”に期待しているだけなのか

Dev.to / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、AIエージェントのエコシステムが自律性の向上やツールへのアクセス拡大を競いながら、エージェントが実際にできることを制限する「本当のランタイム制御レイヤー」を軽視していると主張する。
  • より良いプロンプト、入力バリデーション、危険なツールを差し控えるといった一般的な「解決策」は、(例:プロンプトインジェクションによって)回避され得る、またはエージェントを使う目的そのものを損なうため、不十分だと説明される。
  • この記事では、ネットワークのファイアウォールやWebアプリケーションファイアウォールのように、境界(読み取り/書き込みの制限、API/データベースへのアクセス、危険な操作に対する人間の承認)を定義し、自動的にそれを強制する専用のポリシー/執行レイヤーを提案する。
  • このギャップに対処するため、著者はオープンソースのGo製プロキシ「AgentGuard」を開発した。AgentGuardは、YAMLベースのポリシー、ブロック/承認のワークフロー、完全なログ記録、人気のエージェントフレームワークやプロトコル向けの統合/アダプタを備え、エージェントのためのランタイム・ファイアウォールとして機能する。

私は19歳で、ブラジルでコンピュータ工学を学んでいます。数週間前、制限のない状態でAIエージェントをテストしていました。単に、それが何をするのか見たかっただけです。

それは破壊的でした。

永続的な被害はありませんでしたが、私はそれを止めました。しかし、あなたが「もし監視していなかったらどうなっていたんだろう」と考え込むような瞬間でした。もしそれが本番環境で動いていたら? もし他人のエージェントが今まさに同じことをしていて、誰も見ていなかったら?

そのとき、問題の正体が分かりました。誰もが、エージェントにより多くのツール、より高い自律性、より多くのアクセスを与えようと競争しています。しかし、エージェントがそれを使って実際に何をできるのかを制御する層を作っている人は誰もいません。前提は「良いプロンプトがあれば十分」ということですが、そうではありません。

話題にされていないギャップ

AIエージェントの領域は爆発的に広がっています。LangChain、CrewAI、browser-use、OpenAI Agents SDK――エージェントを作るためのツール群はかつてないほど充実しています。午後のうちに、エージェントにウェブを閲覧させ、コードを書かせ、APIを呼ばせ、ファイルを移動させることもできます。

ですが、私が見つけられなかったのは次のような「実行時に、エージェントが実際に何をできるかをどう制御するのか?」への真剣な答えでした。

私が得た一般的な回答は:

  • 「良いシステムプロンプトを書けばいい」
  • 「入力バリデーションを追加すればいい」
  • 「危険なツールを渡さなければいい」

これらは答えではありません。工学として語られているけれど、実態は願いです。

良いシステムプロンプトでは、プロンプトインジェクションによってエージェントが操作されるのを止められません。入力バリデーションでは、エージェントがrm -rf ./old_stuffを「クリーンアップ」の妥当な解釈だと判断してしまうケースを見抜けません。そして「危険なツールを渡さない」ことは、そもそもエージェントを使う理由と正面から矛盾します。

実際に必要なもの

欠けているのは、あまりにも単純なことです。あなたのエージェントと世界の間に挟まるポリシー層です。

プロンプト工学でもありません。雰囲気でもありません。実際の強制(enforcement)層が必要です。つまり:

  • このエージェントは./workspaceから読み取れるが、何も削除できない
  • このエージェントはOpenAI APIは呼べるが、あなたの本番データベースは呼べない
  • このコマンドは、実行前に人間の承認が必要
  • すべてが常にログに記録される

目的は、すべてのアクションを手作業で監視することではありません。そんなことをすれば、自動化の目的が失われます。目的は、境界を一度だけ定義し、それを自動的に強制し、本当に曖昧な判断だけを人間に提示することです。

これはファイアウォールがネットワークに対してやることです。WAFがWebアプリに対してやることです。エージェントにも同じものが必要で、しかしほとんど誰も作っていません。

だから私は作った

私は、AIエージェント向けのオープンソース実行時ファイアウォールであるAgentGuardを作りました。

これは、エージェントとツールの間に挟まるGo製のプロキシです。ポリシーはYAMLで定義します。このプロキシはリアルタイムにそれを強制し、ブロックしたり、承認待ちで保持したり、すべてをログに記録します。LangChain、CrewAI、browser-use、そしてMCP向けのアダプタがあります。さらにダッシュボードもあり、エージェントが今何をしているかをライブで表示し、ワンクリックでアクションの承認/却下ができます。

まだ完成していません。SQLiteの監査(audit)バックエンドはまだできていません。一部のアダプタも荒い部分があります。でもコアは動いていて、私はコアの考え方は正しいと思っています。

GitHub logo Caua-ferraz / AgentGuard

AgentGuardはAIエージェントのためのファイアウォールであり、エージェントによって望まないサプライズが監視なしで発生するのを防ぎます

AgentGuard

AIエージェントのためのファイアウォール。
自律型AIシステムに対するポリシー強制、リアルタイムの監督、そして完全な監査ログ

QuickstartWhy AgentGuardArchitecturePolicy EngineDashboardAdaptersSetup GuideContributing

The Problem

トレンドになっているあらゆるAIプロジェクトは、エージェントにより高い自律性を与えています――シェルコマンドの実行、ウェブ閲覧、API呼び出し、お金の移動、さらには侵入テストの実行まで。ですが 誰もガードレールを作っていません。

現状では、AIエージェントを本番に投入している多くのチームは、ただ...「うまく振る舞ってくれることを期待している」だけです。

AgentGuardがそれを解決します。

Why AgentGuard


























AgentGuardなし AgentGuardあり
エージェントがrm -rf /を実行 — 後で気づく ポリシーが実行前に破壊的なコマンドをブロック
監督なしで本番APIを呼び出す アクションを一時停止し、Slack/ウェブフックで承認してもらう
エージェントが何をしたのか、なぜやったのか記録がない タイムスタンプ、推論、判断を含む完全な監査ログ
「自分の環境では動いた」系のデバッグ 監査から任意のエージェントセッションを照会





5日で、ほぼ積極的な配布なしにもかかわらず165人のユニークな開発者によりクローンされています。これは、この問題がどれだけ現実的なものかを物語っていると思います。

私がずっと考えていること

完全なセキュリティ承認を得たうえでAIエージェントを本番に送っている組織は、わずか14.4%しかありません。88%が、昨年AIエージェントのセキュリティインシデントが確認された、または疑われたと報告しています。

みんなが急いでいます。誰もガードレールを作っていません。

AgentGuardが正しい答えかどうかは分かりません。でも「希望」ではない、ということにはかなり確信があります。

広告