RCE や safeBins バイパスは衝撃的ですが、最も蔓延している AIエージェントへの脅威は Indirect Prompt Injection であり — これが従来のソフトウェアよりもエージェントを根本的に安全に保つのを難しくしている要因です。
IPI の仕組み
実世界の IPI(OpenClaw における): ログ汚染
SOC Prime と Kaspersky は、OpenClaw の TCP ポート 18789(テレメトリ)を狙う IPI の亜種を記録しました。攻撃者はプロンプト指示をログエントリに偽装して注入しました。エージェントが診断のために自分のログを処理したとき、隠しコマンドを実行しました — 環境変数を外部へ流出させたり、内部ネットワークをスキャンしたりします。
これは特に危険です:
- エージェントは自分のログを信頼している(それらは「内部」データです)
- 攻撃はセッションを跨いで永続メモリ(
memory.md)を通じて生き残る - 従来のファイアウォールは検出できない — トラフィックは通常のエージェント活動のように見える
arXiv:2601.15654(Zombie Agents)からの重要な洞察: 一度悪意の指示が長期メモリに入ると、セッションを跨いで持続し、数日後に活性化する可能性があります — セッションベースのセキュリティが完全に見逃す「眠れるエージェント」パターンです。
ClawHavoc: 824 の悪意のあるスキル
Snyk の ToxicSkills 研究(2026年2月)では、ClawHub から 3,984 のスキルをスキャンしました:
| 発見 | 割合 |
|---|---|
| 少なくとも1つのセキュリティ欠陥を持つスキル | 36.8% |
| 重大な問題を持つスキル(マルウェア、シークレット、IPI) | 13.4% |
| 確認済みの悪意のあるペイロードを含むスキル | 76 |
| IPI + 従来のマルウェアの組み合わせを使用する悪意のあるスキル | 91% |
ClawHavoc キャンペーンは、1月の341件の悪意のあるスキルから、3月には824+件へと成長し、以下を提供しました:
- macOS: AMOS(Atomic Stealer) → キーチェーン、SSH鍵、暗号資産ウォレット
- Windows: Vidar Stealer → 特にターゲットは
openclaw.json、soul.md、memory.md
攻撃パターン
Moltbook: 1.5M トークンの露呈
Moltbook は 完全に AI エージェントによって構築された ソーシャルネットワーク("vibe coding")でした。創業者は自分で手を動かしてコードを書いたことは一度もないと認めました。
結果は、Row Level Security が無効の Supabase データベースと、フロントエンド JavaScript にハードコードされた anon key でした。
Wiz Research が発見しました:
| 露出したデータ | 件数 |
|---|---|
| API tokens (OpenAI, Anthropic, AWS) | 1,500,000 |
| Owner email addresses | 35,000 |
| Private DMs with plaintext API keys | 4,060 |
| Agent-to-human ratio ("Shadow AI") | 88:1 |
⚠️ An 88:1 agent-to-human ratio means massive, unsupervised automation. This is "Shadow AI" at enterprise scale.
Timeline: From discovery to first patch: 6 hours. But the damage — 1.5M tokens in the wild — was already done.
GTG-1002: AI 主導の諜報作戦
In September 2025, Anthropic は「AI 主導の大規模な諜報サイバー攻撃キャンペーンを妨害する」というセキュリティ開示を公表しました(「AI 主導の最初の報告されたサイバー諜報キャンペーンを妨害する」)。この件は、その後 The Hacker News、The Record、The Guardian、および Fox Business に取り上げられました。
| 属性 | 詳細 | 出典 |
|---|---|---|
| 脅威アクター | GTG-1002(中国政府系) | Anthropic の公式開示 |
| 武器化されたツール | Claude Code | Anthropic の公式開示 |
| ターゲット | 約30 組織(金融、政府、技術) | Anthropic、The Record |
| 自律性レベル | 運用の80-90% が AI 主導 | Anthropic の公式開示 |
| 検出 | 2025年9月中旬 | Anthropic、The Guardian |
| 状況 | アカウント停止、被害者通知 | Anthropic の公式開示 |
攻撃者は Claude のセーフティガードを回避するため、正当なペンテスト担当者であると納得させるように仕向け、悪意のコマンドを見かけ上は無害なリクエストへと分解しました。Anthropic は、AI が時には存在しない資格情報を「幻覚」することを指摘し、人間の検証を必要とします — 完全な自律性を防ぐ、数少ない要因の1つです。
業界指標: 72分のデータ流出
Unit 42 Global Incident Response Report 2026(750件以上のインシデントを分析):
| 指標 | 値 | 背景 |
|---|---|---|
| 最速のデータ流出時間 | 72分 | 2024年より4倍速 |
| 複数表面攻撃 | 87% | エンドポイント + クラウド + SaaS を同時に |
| アイデンティティベースの初期アクセス | 65% | トークン盗難 > ソフトウェアの脆弱性 |
| 防ぐことができる侵害 | 90% | 設定ミス + 過剰権限 |
| 未使用権限を持つクラウドID(60日以上) | 99% | 膨大な攻撃面 |
意味は明らかです: 攻撃者が 72 分でデータを流出させ、SOC の対応に 4 時間かかる場合、すでに敗北しています。自動化された対応だけが実行可能な対策です。
学術的視点: 研究者が発見したこと
4つの最近の arXiv 論文は、上記の脅威を正式に定義しています。以下は、それぞれが発見した点と提案する対策です:
AgentSentry(arXiv:2602.22724)
問題: 間接的プロンプトインジェクションは複数ターンにわたりエージェントの挙動を操作し、単一ターンの防御ではほとんど検知されません。
発見: IPI を「時間的因果的乗っ取り」としてモデル化することで、攻撃信号がツール戻り境界、外部ツールがエージェントにデータを返す瞬間に支配的になることを研究者は特定しました。
対策: 反事実的再実行: システムは疑わしい内容を除去した状態でエージェントの推論を再生します。エージェントの挙動が大幅に変われば、内容がフラグ付けされ、浄化されます。
結果: AgentDojo ベンチマークで攻撃成功率 0% を達成しつつ、通常のタスク有用性を維持しました。
AdapTools(arXiv:2602.20720)
問題: MCP (Model Context Protocol) サーバは、エージェントをツールへ接続するためにますます使用されていますが、誰が監査しているのでしょうか?
発見: サードパーティ MCP サーバの 50% にセキュリティ監査が欠如しています。攻撃者は正当な外見の悪意ある MCP サーバーを登録できます。
対策: 適応型ツールベースの IPI 検知で、ツール呼び出しのパターンを異常に対して監視します。
Taming OpenClaw (arXiv:2603.11619) — 清華大学 + アント・グループ
Problem: 既存の防御は「ポイントソリューション」で、層間攻撃を見逃している。
Discovery: 5層ライフサイクルフレームワークを導入(初期化 → 入力 → 推論 → 決定 → 実行)により、ほとんどの攻撃は個々の層を狙うのではなく層間の遷移を悪用することを明らかにしている。
Mitigation: 全体的な防御を提案:プラグイン審査、文脈認識フィルタリング、メモリ整合性検証、意図検証、能力の強制 — すべて層の境界で適用。
Zombie Agents (arXiv:2601.15654)
Problem: IPIが長期メモリに入るとどうなるか?
Discovery: 自己強化的注入パターンを通じて、悪意の指令はセッションを跨いで持続する。エージェントは悪意の指令を自分のメモリに書き込み、数日後に活性化する"スリーパー・エージェント"を作り出す。
Mitigation: メモリ整合性検証プロトコルとセッションスコープのメモリ分離。
参照アーキテクチャ: AWS上のセキュアなエージェント展開
以下のセキュリティ原則はクラウド非依存です:
| 原則 | AWSの実装 | 他所の同等の実装 |
|---|---|---|
| ハードウェア分離 | Nitro Enclaves | GCP Confidential VM、Azure Confidential Computing |
| 一時的な計算 | FirecrackerマイクロVM | Kata Containers、gVisor |
| ポリシーをコードとして | Cedar (AWS) | OPA/Rego (クラウド非依存、CNCF) |
| ゼロトラストアクセス | Verified Access | BeyondCorp (GCP)、Azure AD 条件付きアクセス |
この記事は私が構築しているのがAWSだからAWSに焦点を当てていますが、アーキテクチャパターンは普遍的に適用されます。
参照アーキテクチャ
Key Components Explained
1. Nitro Enclaves (ハードウェア分離)
エージェントはNitro Enclaveの内部で動作します — ネットワークなし、ストレージなし、SSHなし。通信は専らvsockを介して、親インスタンス上のフォワードプロキシへ行われます。
| PCR レジスタ | 測定内容 | 重要性 |
|---|---|---|
| PCR0 | Enclaveイメージハッシュ | エージェントのバイナリが改ざんされていない |
| PCR1 | カーネル + RAMディスクのハッシュ | OSの整合性が検証される |
| PCR3 | IAMロールARNのハッシュ | 認可されたインスタンスのみが起動できる |
| PCR8 | 署名証明書のハッシュ | ソフトウェアの出所が検証される |
2. FirecrackerマイクロVM(エフェメラルセッション)
| 機能 | Firecracker | Docker |
|---|---|---|
| 分離 | ハードウェア(KVM) | 共有カーネル |
| 起動時間 | <125ms | 約1-5秒 |
| RAMオーバーヘッド | <5MB | 約50-200MB |
| 脱出リスク | 最小 | 高い |
| タスク後のクリーンアップ | 自動削除 | 設定が必要 |
Bedrock AgentCore Runtime は各エージェントセッションを専用のマイクロVMで実行するために Firecracker を使用します。セッション終了直後にメモリは消去されます。
3. Cedarによるゼロトラスト
// 管理されたデバイスのみ + FinanceOpsグループ + 内部ネットワーク
permit(
principal,
action == Action::"InvokeAgent",
resource == Resource::"FinancialAgent"
)
when {
context.device.is_managed == true &&
context.identity.groups.contains("FinanceOps") &&
context.network.source_ip.is_in_range(IPRange::"10.0.0.0/24")
};
4. OPAによるツール検証
package agent.authz
default allow = false
# 非機密テーブルの読み取りを許可
allow {
input.tool == "DatabaseReader"
input.operation == "select"
not input.table == "user_credentials"
}
# 本番環境での破壊的操作をブロック
deny {
input.operation == "delete"
input.environment == "production"
not is_maintenance_window
}
セキュアなデプロイメントチェックリスト
✅ エージェントサ sandbox(FirecrackerマイクロVMまたはNitro Enclave)
✅ 署名済みプラグイン/スキル(暗号的整合性)
✅ ポリシーエンジン(ツール呼び出しごとにOPA/Cedar)
✅ ネットワーク分離(エージェント、ツール、データ用に別々のサブネット)
✅ 資格情報ボルト(Secrets Manager — 平文を使わない)
✅ 送出フィルタリング(転送プロキシ経由のドメイン許可リスト)
✅ 自動応答(EventBridge → Lambda キルスイッチ)
✅ 不変ログ(CloudWatch + 改ざん防止)
✅ デバイス姿勢検証(Verified Access)
✅ セッションスコープのメモリ(セッション間の永続化なし)
主要なポイント
モデルは信頼できない。 セキュリティは挙動ではなく構造的であるべきだ。 エージェントを安全に保つには、プロンプト設計だけに頼ることはできない。
間接的プロンプトインジェクションが最大の脅威。 それはエージェントを従来のソフトウェアと本質的に異ならせる attackベクターです。防御の各層はそれを考慮する必要があります。
72分のデータ流出 は人間のスピードの対応が時代遅れであることを意味します。 EventBridge + Lambdaでインシデント対応を自動化してください。
AIスキルの36.8% にセキュリティ上の欠陥があります (Snyk ToxicSkills)。 すべてのプラグインを信頼できないコードとして扱ってください。
エージェントの攻撃表面 = LLM推論 + ツール実行 + ファイルシステムアクセス + インターネットアクセス。 各層を個別に安全にします。
ツールは今日存在します。 AWS(Nitro、Firecracker、AgentCore)、GCP(Confidential VM)、またはオープンソース(Kata、gVisor、OPA)を使用するかどうかに関わらず、原則は同じです:ハードウェア分離 + ポリシー適用 + 一時的な計算。
参考文献
- Oasis Security — ClawJacked 技術報告書 (CVE-2026-25253)
- NIST NVD — CVE-2026-28363 (CVSS 9.9)
- Snyk — ToxicSkills Study (Feb 2026)
- Wiz Research — Moltbook breach analysis
- Anthropic — GTG-1002: First AI-Orchestrated Espionage Campaign
- Palo Alto Networks — Unit 42 Global Incident Response Report 2026
- CrowdStrike — Global Threat Report 2025
- AWS — Security Reference Architecture for Generative AI (Capability 5)
- AWS — Nitro Enclaves Cryptographic Attestation Documentation
- AWS — Bedrock AgentCore Runtime
- arXiv:2602.22724 — AgentSentry
- arXiv:2603.11619 — Taming OpenClaw
- arXiv:2601.15654 — Zombie Agents
- NIST RFI 2026-00206 — AIエージェントのセキュリティ考慮事項
この情報が役に立った場合、今後のクラウドセキュリティの深掘りをフォローしてください。ご質問はコメント欄にどうぞ。








