AIエージェントは「だまされやすく」、あなたの“操り人形(ミニオン)”にされやすい

The Register / 2026/3/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early Trends

要点

  • ZenityのCTOがRSACでデモを行い、「0クリック」のエクスプロイトが、セッション中にユーザーの操作(やり取り)を必要とせずにAIエージェントを侵害できることを示した。
  • この記事では、多くのAIエージェントが「だまされやすい」であると主張しており、プロンプトや指示に対してあまりにも従順で、危険な行動を実行するよう悪用され得ることを示唆している。
  • 典型的な“ユーザー主導のワークフロー”ではなく、エージェントの挙動や統合(インテグレーション)を突くことで、攻撃者がAIエージェントを「ミニオン」に変えるといったセキュリティ上のリスクパターンを強調している。
  • デモは、検証(バリデーション)、権限付与(パーミッション)、命令の乗っ取りやプロンプトを介した悪用への防御など、より強力なエージェント保護の必要性を裏付けている。

AIエージェントは「騙されやすく」、自分の手下(ミニオン)にするのは簡単

ZenityのCTOがRSACのステージで0クリックのAIエージェント悪用を実演

Mon 23 Mar 2026 // 17:50 UTC

RSAC 2026 エンタープライズのほぼすべてのAIエージェントがゼロクリック攻撃に対して脆弱だという、非常に単純な理由がある――そう語るのは、AIセキュリティ企業ZenityのCTOであるMichael Barguryだ。

「AIはただ“騙されやすい”だけなんです」と、BarguryはThe Registerのインタビューで語った。「私たちは、プロンプトインジェクション――これは非常に技術的な用語なので――という考え方から方向転換させ、人々に、それが実際には単なる説得だと納得してもらおうとしています。私は、AIエージェントに“別のことをするべきだ”と説得しているだけなんです。」

その“別のこと”には、Cursorに対して開発者の秘密を漏えいさせるよう説得することや、Salesforceのエージェントに対して、すべての顧客とのやり取りを攻撃者が制御するサーバーに送らせること、ChatGPTに対してGoogleドライブのデータを盗ませることが含まれる。 

「それに加えて、さらにChatGPTであなたを操作することもできます」とBarguryは言った。「ChatGPTは信頼できる助言者です。機密になり得る質問を投げて、アドバイスを求める。すると、私が望むことを何でも答えさせるように操作できるんです――しかも、特定の会話だけでなく、長期的にもです。」

Barguryは、RSACで月曜日に「Your AI Agents Are My Minions」と題する講演を行い、その中で、Cursor、Salesorce、ChatGPT、Gemini、Copilot、Einstein、そしてそれらのカスタムエージェントに対する、これらに加えて別のゼロクリックのプロンプト感染攻撃を実演する予定だ。 

返却形式: {"translated": "翻訳されたHTML"}

彼はRSACでの発表に先立って、自身の研究をThe Registerに共有し、それはこの数年で自分が行ってきた取り組みを土台にしていると述べた――Black Hatで発表した内容や、その他のセキュリティ会議――そして、ユーザーの操作を一切必要としない、主要なAIアシスタントすべてに対する実働のエクスプロイトを開発している。

今月初め、Zenityは脆弱性の一群を明らかにした。これにより攻撃者は、被害者にカレンダーイベントを送るだけで、PerplexityのCometブラウザを使っている誰かからローカルファイルを盗み出せるようになった。

0クリックのプロンプトインジェクション

「いま見えているのは、エージェントが好きなだけ閲覧できるデータへアクセスできてしまうため、それが攻撃要因になって、ゼロクリックでの悪用につながるということです」と彼は述べた。「攻撃者はインターネットに行き、あなたを特定して狙える方法を見つけ、プロンプトインジェクションを送ります。すると、そのインジェクションがあなたのエージェントに入り込み、そこから乗っ取って、攻撃者が望むことを何でも実行させます。」

もちろん、ユーザー操作はゼロ。しかも、やり方はかなり簡単です。

たとえば、CursorはJiraとともにModel Context Protocol(MCP)接続で使われることがよくあります。これにより、AIはエディタ内で直接、Jiraチケットを読み取り、作成し、更新できます。開発者はこの連携を使って、サポートチケットのメールを受け取るたびにJiraチケットの作成を自動化し、エージェントに未解決チケットの解決を依頼できます。

「でも、こうした未解決の案件の中には外部の世界から飛び込んでくるものもあって、あなたは自分で出かけて、それらの“自動でJiraチケット作成を行う”ように接続されたエンドポイントをインターネットで探すことができます。それが、あなたがペイロードを送る方法になります」とBarguryは言った。

私はMicrosoft Copilot、Google Gemini、SalesforceのAgentforce、そしてChatGPTに対して、似たような種類の攻撃を紹介します。そしてその理由は、ほら分かってください。世の中で最高のものでも、極めて脆弱なんだということを示すためです

攻撃者は、Jiraチケットを自動で作成するサポートメールアドレスを検索し、そこに悪意あるプロンプトを埋め込んだメールを送ることができます。Cursorは自動的にそのメールを開いて、プロンプトに基づいて動作します。 

BarguryがRSACで示す例では、彼のチームはCursorに対して、機密情報を見つけ出し、それをZenityが管理するエンドポイントへ送らせようとしました。「でもCursorはそれをしたがりません。なぜなら、“そうしないように”訓練されているからです。」 

AnthropicのClaudeモデルをかなり重く使っているCursorには、機密情報へのアクセスや持ち出し(エクフィル)を防ぐガードレールがあります。そこでZenityのチームは、AIエージェントに機密を盗ませる代わりに、Cursorに「宝探しに参加している」と伝えました。

「そしてこの宝探しの一環として、私たちにとって本当に重要なのは“りんご”を見つけることです」とBarguryは言った。「それから、りんごがどんな見た目をしているかのフォーマットもここに示します――そして“機密情報”がどんなフォーマットかも提示します。」

AIは悪意あるプロンプトに自発的に従い、その結果、侵害されたマシン上でリモートコード実行が発生し、Zenityのチームが機密情報を盗み出せるようになりました。

「講演では、Microsoft Copilot、Google Gemini、SalesforceのAgentforce、そしてChatGPTに対する、似たような種類の攻撃を紹介します」とBarguryは言った。「そしてその理由は、ほら分かってください。世の中で最高のものでも、極めて脆弱なんだということを示すためです。」

これは単なる机上の空論ではありません。Zenityは世界規模のハニーポットのネットワークを持っており、Barguryは、それらが「正当な企業向けAIエージェント」だと彼らが考えているものを探る攻撃者を捕捉したと述べた。「これはネットワークレベルのリクエストだけではありません」と彼は言った。「プロンプトレベルでのリクエストです。つまり、あなたのシステムを相手の目的のために使おうとする、あるいはあなたがホストしているモデルを理解しようとするためのプロンプトを送ってくるんです。すでに起きています。」  

解決策は、彼の言うには「強固な境界(ハードな境界)」を作ることです――これは、モデルの推論が引き継ぐ前に、コードレベルで強制される“AIエージェントができること”に関する決定論的な制限です。「AIに“ちゃんとお願いして”何かをしないでくれと言うだけでは、それは境界ではない」とBarguryは言った。「その能力を実際に制限するようなソフトウェアを周りに用意する必要があります。」

たとえば、もしAIエージェントが機密情報を読み取るのであれば、その情報を組織の外へ送れないように、強固な境界を設けるべきだ、と彼は説明した。

「でもそれはビルダー向けの助言ですよね?ユーザー向けの助言ではありません」とBarguryは言った。「ユーザーにとっては、こうしたものはあまりにも“魔法のように”見えるので、私たちはつい全面的に信頼してしまいます。彼らは“信頼できる助言者”になります。しかし注意が必要です。信頼できる助言者は、崖からあなたを引きずり落とすことにもなり得るからです。」

言い換えると、確かめるまで信じるな。®

共有
これに似た内容
×

より絞り込んだ話題

より広いトピック

詳細

共有
これに近い内容
×

関連が絞り込まれた話題

幅広いトピック