AIエージェントは「騙されやすく」、自分の手下(ミニオン)にするのは簡単
ZenityのCTOがRSACのステージで0クリックのAIエージェント悪用を実演
RSAC 2026 エンタープライズのほぼすべてのAIエージェントがゼロクリック攻撃に対して脆弱だという、非常に単純な理由がある――そう語るのは、AIセキュリティ企業ZenityのCTOであるMichael Barguryだ。
「AIはただ“騙されやすい”だけなんです」と、BarguryはThe Registerのインタビューで語った。「私たちは、プロンプトインジェクション――これは非常に技術的な用語なので――という考え方から方向転換させ、人々に、それが実際には単なる説得だと納得してもらおうとしています。私は、AIエージェントに“別のことをするべきだ”と説得しているだけなんです。」
その“別のこと”には、Cursorに対して開発者の秘密を漏えいさせるよう説得することや、Salesforceのエージェントに対して、すべての顧客とのやり取りを攻撃者が制御するサーバーに送らせること、ChatGPTに対してGoogleドライブのデータを盗ませることが含まれる。
「それに加えて、さらにChatGPTであなたを操作することもできます」とBarguryは言った。「ChatGPTは信頼できる助言者です。機密になり得る質問を投げて、アドバイスを求める。すると、私が望むことを何でも答えさせるように操作できるんです――しかも、特定の会話だけでなく、長期的にもです。」
Barguryは、RSACで月曜日に「Your AI Agents Are My Minions」と題する講演を行い、その中で、Cursor、Salesorce、ChatGPT、Gemini、Copilot、Einstein、そしてそれらのカスタムエージェントに対する、これらに加えて別のゼロクリックのプロンプト感染攻撃を実演する予定だ。
返却形式: {"translated": "翻訳されたHTML"}彼はRSACでの発表に先立って、自身の研究をThe Registerに共有し、それはこの数年で自分が行ってきた取り組みを土台にしていると述べた――Black Hatで発表した内容や、その他のセキュリティ会議――そして、ユーザーの操作を一切必要としない、主要なAIアシスタントすべてに対する実働のエクスプロイトを開発している。
今月初め、Zenityは脆弱性の一群を明らかにした。これにより攻撃者は、被害者にカレンダーイベントを送るだけで、PerplexityのCometブラウザを使っている誰かからローカルファイルを盗み出せるようになった。
0クリックのプロンプトインジェクション
「いま見えているのは、エージェントが好きなだけ閲覧できるデータへアクセスできてしまうため、それが攻撃要因になって、ゼロクリックでの悪用につながるということです」と彼は述べた。「攻撃者はインターネットに行き、あなたを特定して狙える方法を見つけ、プロンプトインジェクションを送ります。すると、そのインジェクションがあなたのエージェントに入り込み、そこから乗っ取って、攻撃者が望むことを何でも実行させます。」
もちろん、ユーザー操作はゼロ。しかも、やり方はかなり簡単です。
たとえば、CursorはJiraとともにModel Context Protocol(MCP)接続で使われることがよくあります。これにより、AIはエディタ内で直接、Jiraチケットを読み取り、作成し、更新できます。開発者はこの連携を使って、サポートチケットのメールを受け取るたびにJiraチケットの作成を自動化し、エージェントに未解決チケットの解決を依頼できます。
「でも、こうした未解決の案件の中には外部の世界から飛び込んでくるものもあって、あなたは自分で出かけて、それらの“自動でJiraチケット作成を行う”ように接続されたエンドポイントをインターネットで探すことができます。それが、あなたがペイロードを送る方法になります」とBarguryは言った。
私はMicrosoft Copilot、Google Gemini、SalesforceのAgentforce、そしてChatGPTに対して、似たような種類の攻撃を紹介します。そしてその理由は、ほら分かってください。世の中で最高のものでも、極めて脆弱なんだということを示すためです
攻撃者は、Jiraチケットを自動で作成するサポートメールアドレスを検索し、そこに悪意あるプロンプトを埋め込んだメールを送ることができます。Cursorは自動的にそのメールを開いて、プロンプトに基づいて動作します。
BarguryがRSACで示す例では、彼のチームはCursorに対して、機密情報を見つけ出し、それをZenityが管理するエンドポイントへ送らせようとしました。「でもCursorはそれをしたがりません。なぜなら、“そうしないように”訓練されているからです。」
AnthropicのClaudeモデルをかなり重く使っているCursorには、機密情報へのアクセスや持ち出し(エクフィル)を防ぐガードレールがあります。そこでZenityのチームは、AIエージェントに機密を盗ませる代わりに、Cursorに「宝探しに参加している」と伝えました。
「そしてこの宝探しの一環として、私たちにとって本当に重要なのは“りんご”を見つけることです」とBarguryは言った。「それから、りんごがどんな見た目をしているかのフォーマットもここに示します――そして“機密情報”がどんなフォーマットかも提示します。」
AIは悪意あるプロンプトに自発的に従い、その結果、侵害されたマシン上でリモートコード実行が発生し、Zenityのチームが機密情報を盗み出せるようになりました。
「講演では、Microsoft Copilot、Google Gemini、SalesforceのAgentforce、そしてChatGPTに対する、似たような種類の攻撃を紹介します」とBarguryは言った。「そしてその理由は、ほら分かってください。世の中で最高のものでも、極めて脆弱なんだということを示すためです。」
- 先月まで、攻撃者はカレンダー招待を送るだけでPerplexity Cometユーザーから情報を盗めていた
- AIエージェントを鈍らせて、あなたに与える被害をせいぜい抑える
- AIエージェントは悪意あるリンクを“プレビューするだけ”で機密を漏らす
- Claude Codeの盗み見AIが、立ち入り禁止の機密ファイルを読み取る
これは単なる机上の空論ではありません。Zenityは世界規模のハニーポットのネットワークを持っており、Barguryは、それらが「正当な企業向けAIエージェント」だと彼らが考えているものを探る攻撃者を捕捉したと述べた。「これはネットワークレベルのリクエストだけではありません」と彼は言った。「プロンプトレベルでのリクエストです。つまり、あなたのシステムを相手の目的のために使おうとする、あるいはあなたがホストしているモデルを理解しようとするためのプロンプトを送ってくるんです。すでに起きています。」
解決策は、彼の言うには「強固な境界(ハードな境界)」を作ることです――これは、モデルの推論が引き継ぐ前に、コードレベルで強制される“AIエージェントができること”に関する決定論的な制限です。「AIに“ちゃんとお願いして”何かをしないでくれと言うだけでは、それは境界ではない」とBarguryは言った。「その能力を実際に制限するようなソフトウェアを周りに用意する必要があります。」
たとえば、もしAIエージェントが機密情報を読み取るのであれば、その情報を組織の外へ送れないように、強固な境界を設けるべきだ、と彼は説明した。
「でもそれはビルダー向けの助言ですよね?ユーザー向けの助言ではありません」とBarguryは言った。「ユーザーにとっては、こうしたものはあまりにも“魔法のように”見えるので、私たちはつい全面的に信頼してしまいます。彼らは“信頼できる助言者”になります。しかし注意が必要です。信頼できる助言者は、崖からあなたを引きずり落とすことにもなり得るからです。」
言い換えると、確かめるまで信じるな。®
より絞り込んだ話題
- 2FA
- 高度な持続的脅威
- AIOps
- アプリケーション配信コントローラ
- 認証
- BEC
- ブラックハット
- BSides
- バグバウンティ
- Center for Internet Security
- CHERI
- CISO
- 共通脆弱性評価システム
- サイバー犯罪
- サイバーセキュリティ
- サイバーセキュリティ・インフラストラクチャセキュリティ庁
- サイバーセキュリティ情報共有法
- データ侵害
- データ保護
- データ窃取
- DDoS
- DeepSeek
- DEF CON
- デジタル証明書
- 暗号化
- エンドポイント保護
- エクスプロイト
- ファイアウォール
- Gemini
- Google AI
- Google Project Zero
- GPT-3
- GPT-4
- ハッカー
- ハッキング
- ハクティビズム
- 身元詐取
- インシデント対応
- 情報セキュリティ
- インフラストラクチャ セキュリティ
- ケンナ セキュリティ
- 大規模言語モデル
- 機械学習
- MCubed
- NCSAM
- NCSC
- ニューラルネットワーク
- NLP
- パロアルトネットワークス
- パスワード
- 個人を特定できる情報
- フィッシング
- 量子鍵配送
- ランサムウェア
- リモートアクセス型トロイの木馬
- 検索拡張生成
- REvil
- RSAカンファレンス
- ソフトウェアの部品表
- スパム送信
- スパイウェア
- スター・ウォーズ
- 復追
- テンソル処理ユニット
- TLS
- TOPS
- トロイの木馬
- トラステッド プラットフォーム モジュール
- 脆弱性
- ウォンナクライ
- ゼロトラスト
より広いトピック
詳細
関連が絞り込まれた話題
- 2FA
- 高度な持続的脅威
- AIOps
- アプリケーションデリバリーコントローラ
- 認証
- BEC
- ブラックハット
- BSides
- バグバウンティ
- Center for Internet Security
- CHERI
- CISO
- Common Vulnerability Scoring System
- サイバー犯罪
- サイバーセキュリティ
- サイバーセキュリティ・インフラストラクチャセキュリティ庁
- サイバーセキュリティ情報共有法
- データ漏えい
- データ保護
- データ窃取
- DDoS
- DeepSeek
- DEF CON
- デジタル証明書
- 暗号化
- エンドポイント保護
- エクスプロイト
- ファイアウォール
- Gemini
- Google AI
- Google Project Zero
- GPT-3
- GPT-4
- ハッカー
- ハッキング
- ハクティビズム
- 身元盗用
- インシデント対応
- 情報セキュリティ
- インフラストラクチャ セキュリティ
- ケンナ・セキュリティ
- 大規模言語モデル
- 機械学習
- MCubed
- NCSAM
- NCSC
- ニューラルネットワーク
- NLP
- パロアルトネットワークス
- パスワード
- 個人を特定できる情報
- フィッシング
- 非公開鍵配送
- ランサムウェア
- リモートアクセス型トロイの木馬
- リトリーバル拡張生成
- REvil
- RSAカンファレンス
- ソフトウェア・ビル・オブ・マテリアル
- スパム
- スパイウェア
- スター・ウォーズ
- 監視
- テンソル処理装置
- TLS
- TOPS
- トロイの木馬
- 信頼されたプラットフォーム モジュール
- 脆弱性
- ウォーナクライ
- ゼロトラスト

