誰もがエージェントがどれだけ速くコードを書くかを測っています。ですが、そのコードが何をもたらすのかを測っている人はほとんどいません。
今年、独立した研究者が、アプリケーションをゼロから作り出す主要なAIコーディングエージェントをテストしました。ほとんどのプルリクエストに少なくとも1つの脆弱性が含まれていました。Fortune 50企業の内部では、AIが生成したコードが毎月10,000件超の新しいセキュリティ調査結果を持ち込んでいました。ロジックや構文のバグは減りました。特権昇格の経路は300%以上跳ね上がりました。ひえっ!
コードは改善した一方で、脆弱性は悪化しました。エージェントは、同じ昔からのミスをより速く生み出しているだけです。ある顧客が別の顧客のデータを見る。バックドアが丸ごと開いたままになるログインフロー。インターネット全体に公開されたエンドポイント。
The mistakes are harder to see
コードはきれいに見えます。正しいパターンに従い、適切なフレームワークを使い、初期のエージェント主導のコードレビューにも通ります。ただし、問いかけるはずの確認を静かにスキップしているだけです——「このユーザーは本当にこれを行う権限があるのか?」あるいは「このリクエストは認証されているのか?」
これらは判断ミスです。多くのチームが頼っているセキュリティツールは、見逃してはいけない「既知のダメなパターン」を見つけるために作られたもので、論理の欠落を検出するために作られているわけではありません。AIが生成したコードに含まれる脆弱性の80%以上は、従来の静的解析では検出されません。パターンマッチングは、明らかに間違っているコードを捉えます。しかし、存在しないロジックは検出できません。
The window to catch them is closing
人間は1スプリントに1つ、不適切な(安全でない)エンドポイントを書きます。エージェントは午後のうちに20個書きます。それだけで、セキュリティ基盤が処理すべき量の計算が変わります。
さらに進みます。エージェントによるループがより締まってきています。エージェントがコードを書き、エージェントがコードをレビューし、エージェントがコードをマージする。生成から本番までの間隔は各反復で縮まり、そのたびに人間による検証レイヤーは薄くなっていきます。
その窓が広かったときは、パターンマッチングのツールと人間のレビュアーがお互いの見落としを補うことができました。狭まるにつれて、どちらも作業できる時間が減り、すり抜けるミスは、どちらも本来想定していない検出し方では捕まえられないものになっていきます。
The tooling is evolving, and so is the attack surface
次世代のセキュリティツールは、単にパターンを照合するだけでなく、コードを推論する方向に動き始めています。開発ループに組み込まれた継続的なセキュリティレビューであって、最後に設ける“関門”ではない。こうした方向性は正しいです。
また、ツールが増えるということは、攻撃対象領域も増えるということです。今年の初めにMCP基盤にCVEの波が押し寄せました。その多くは、これらのツールが本来検出するはずのものと同じクラスの脆弱性でした。セキュリティのパイプラインを信頼するなら、パイプライン自体を確保する必要があります。OWASPとGitHubはすでに、このためのフレームワークやリファレンスアーキテクチャを公開しています。
What I'm doing about it
私自身のプラットフォームでは、パターンマッチングのレイヤーを用意しています。すべてのプルリクエストに対する静的解析、夜間の動的スキャンです。これは、設計されていた通りのものを検出します。土台はできています。
次に必要なのは、その上に何が来るかです。つまり、ロジックレベルのギャップを推論するセキュリティエージェント、レビュー時だけでなく生成時にMCP経由で統合されるツール、そして本番と同じ隔離と最小権限の扱いを受ける強化済みパイプラインです。
エージェントが犯すミス自体は新しいものではありません。新しいのは、それを犯すスピードです。



