OpenClaw セキュリティ事案からの教訓: AWS上での安全なAIエージェント・アーキテクチャの構築

Dev.to / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage

要点

  • OpenClawは2026年前半に一連のセキュリティ失敗を経験し、ワンクリックのリモートコード実行エクスプロイト(CVE-2026-25253)、824件を超える悪意あるプラグイン、および150万件のAPIトークンを暴露したデータ漏えいを伴い、中国の国家支援グループ(GTG-1002)が自律的に約30の組織を侵害した。
  • 本稿は脅威モデリングを通じてこれらの事象を分析し、Nitro Enclaves、FirecrackerマイクロVM、およびZero Trustポリシーを用いたAWS上での安全な自律AIエージェント展開の参照アーキテクチャを提示する。
  • 中核的な教訓は、モデル自体を信頼できず、セキュリティは振る舞いではなくアーキテクチャの設計として考えるべきであるという点であり、ハードウェアの分離、エフェメラルな計算資源、ポリシーの適用、ネットワークのセグメンテーションを強調している。
  • 参照アーキテクチャとセキュアデプロイメント・チェックリストを提供するとともに、実務家を導くための脅威アクター、タイムライン、脆弱性、およびOpenClaw、Moltbook、GTG-1002からの教訓を網羅する構造化された目次を備えている。

RCE や safeBins バイパスは衝撃的ですが、最も蔓延している AIエージェントへの脅威は Indirect Prompt Injection であり — これが従来のソフトウェアよりもエージェントを根本的に安全に保つのを難しくしている要因です。

IPI の仕組み

実世界の IPI(OpenClaw における): ログ汚染

SOC Prime と Kaspersky は、OpenClaw の TCP ポート 18789(テレメトリ)を狙う IPI の亜種を記録しました。攻撃者はプロンプト指示をログエントリに偽装して注入しました。エージェントが診断のために自分のログを処理したとき、隠しコマンドを実行しました — 環境変数を外部へ流出させたり、内部ネットワークをスキャンしたりします。

これは特に危険です:

  • エージェントは自分のログを信頼している(それらは「内部」データです)
  • 攻撃はセッションを跨いで永続メモリmemory.md)を通じて生き残る
  • 従来のファイアウォールは検出できない — トラフィックは通常のエージェント活動のように見える

arXiv:2601.15654(Zombie Agents)からの重要な洞察: 一度悪意の指示が長期メモリに入ると、セッションを跨いで持続し、数日後に活性化する可能性があります — セッションベースのセキュリティが完全に見逃す「眠れるエージェント」パターンです。

ClawHavoc: 824 の悪意のあるスキル

Snyk の ToxicSkills 研究(2026年2月)では、ClawHub から 3,984 のスキルをスキャンしました:

発見 割合
少なくとも1つのセキュリティ欠陥を持つスキル 36.8%
重大な問題を持つスキル(マルウェア、シークレット、IPI) 13.4%
確認済みの悪意のあるペイロードを含むスキル 76
IPI + 従来のマルウェアの組み合わせを使用する悪意のあるスキル 91%

ClawHavoc キャンペーンは、1月の341件の悪意のあるスキルから、3月には824+件へと成長し、以下を提供しました:

  • macOS: AMOS(Atomic Stealer) → キーチェーン、SSH鍵、暗号資産ウォレット
  • Windows: Vidar Stealer → 特にターゲットは openclaw.jsonsoul.mdmemory.md

攻撃パターン

Moltbook: 1.5M トークンの露呈

Moltbook完全に AI エージェントによって構築された ソーシャルネットワーク("vibe coding")でした。創業者は自分で手を動かしてコードを書いたことは一度もないと認めました。

結果は、Row Level Security が無効の Supabase データベースと、フロントエンド JavaScript にハードコードされた anon key でした。

Wiz Research が発見しました:

露出したデータ 件数
API tokens (OpenAI, Anthropic, AWS) 1,500,000
Owner email addresses 35,000
Private DMs with plaintext API keys 4,060
Agent-to-human ratio ("Shadow AI") 88:1

⚠️ An 88:1 agent-to-human ratio means massive, unsupervised automation. This is "Shadow AI" at enterprise scale.

Timeline: From discovery to first patch: 6 hours. But the damage — 1.5M tokens in the wild — was already done.

GTG-1002: AI 主導の諜報作戦

In September 2025, Anthropic は「AI 主導の大規模な諜報サイバー攻撃キャンペーンを妨害する」というセキュリティ開示を公表しました(「AI 主導の最初の報告されたサイバー諜報キャンペーンを妨害する」)。この件は、その後 The Hacker NewsThe RecordThe Guardian、および Fox Business に取り上げられました。

属性 詳細 出典
脅威アクター GTG-1002(中国政府系) Anthropic の公式開示
武器化されたツール Claude Code Anthropic の公式開示
ターゲット 約30 組織(金融、政府、技術) Anthropic、The Record
自律性レベル 運用の80-90% が AI 主導 Anthropic の公式開示
検出 2025年9月中旬 Anthropic、The Guardian
状況 アカウント停止、被害者通知 Anthropic の公式開示

攻撃者は Claude のセーフティガードを回避するため、正当なペンテスト担当者であると納得させるように仕向け、悪意のコマンドを見かけ上は無害なリクエストへと分解しました。Anthropic は、AI が時には存在しない資格情報を「幻覚」することを指摘し、人間の検証を必要とします — 完全な自律性を防ぐ、数少ない要因の1つです。

業界指標: 72分のデータ流出

Unit 42 Global Incident Response Report 2026(750件以上のインシデントを分析):

指標 背景
最速のデータ流出時間 72分 2024年より4倍速
複数表面攻撃 87% エンドポイント + クラウド + SaaS を同時に
アイデンティティベースの初期アクセス 65% トークン盗難 > ソフトウェアの脆弱性
防ぐことができる侵害 90% 設定ミス + 過剰権限
未使用権限を持つクラウドID(60日以上) 99% 膨大な攻撃面

意味は明らかです: 攻撃者が 72 分でデータを流出させ、SOC の対応に 4 時間かかる場合、すでに敗北しています。自動化された対応だけが実行可能な対策です。

学術的視点: 研究者が発見したこと

4つの最近の arXiv 論文は、上記の脅威を正式に定義しています。以下は、それぞれが発見した点と提案する対策です:

AgentSentry(arXiv:2602.22724)

問題: 間接的プロンプトインジェクションは複数ターンにわたりエージェントの挙動を操作し、単一ターンの防御ではほとんど検知されません。

発見: IPI を「時間的因果的乗っ取り」としてモデル化することで、攻撃信号がツール戻り境界、外部ツールがエージェントにデータを返す瞬間に支配的になることを研究者は特定しました。

対策: 反事実的再実行: システムは疑わしい内容を除去した状態でエージェントの推論を再生します。エージェントの挙動が大幅に変われば、内容がフラグ付けされ、浄化されます。

結果: AgentDojo ベンチマークで攻撃成功率 0% を達成しつつ、通常のタスク有用性を維持しました。

AdapTools(arXiv:2602.20720)

問題: MCP (Model Context Protocol) サーバは、エージェントをツールへ接続するためにますます使用されていますが、誰が監査しているのでしょうか?

発見: サードパーティ MCP サーバの 50% にセキュリティ監査が欠如しています。攻撃者は正当な外見の悪意ある MCP サーバーを登録できます。

対策: 適応型ツールベースの IPI 検知で、ツール呼び出しのパターンを異常に対して監視します。

Taming OpenClaw (arXiv:2603.11619) — 清華大学 + アント・グループ

Problem: 既存の防御は「ポイントソリューション」で、層間攻撃を見逃している。

Discovery: 5層ライフサイクルフレームワークを導入(初期化 → 入力 → 推論 → 決定 → 実行)により、ほとんどの攻撃は個々の層を狙うのではなく層間の遷移を悪用することを明らかにしている。

Mitigation: 全体的な防御を提案:プラグイン審査、文脈認識フィルタリング、メモリ整合性検証、意図検証、能力の強制 — すべて層の境界で適用。

Zombie Agents (arXiv:2601.15654)

Problem: IPIが長期メモリに入るとどうなるか?

Discovery: 自己強化的注入パターンを通じて、悪意の指令はセッションを跨いで持続する。エージェントは悪意の指令を自分のメモリに書き込み、数日後に活性化する"スリーパー・エージェント"を作り出す。

Mitigation: メモリ整合性検証プロトコルとセッションスコープのメモリ分離。

参照アーキテクチャ: AWS上のセキュアなエージェント展開

以下のセキュリティ原則はクラウド非依存です:

原則 AWSの実装 他所の同等の実装
ハードウェア分離 Nitro Enclaves GCP Confidential VM、Azure Confidential Computing
一時的な計算 FirecrackerマイクロVM Kata Containers、gVisor
ポリシーをコードとして Cedar (AWS) OPA/Rego (クラウド非依存、CNCF)
ゼロトラストアクセス Verified Access BeyondCorp (GCP)、Azure AD 条件付きアクセス

この記事は私が構築しているのがAWSだからAWSに焦点を当てていますが、アーキテクチャパターンは普遍的に適用されます。

参照アーキテクチャ

Key Components Explained

1. Nitro Enclaves (ハードウェア分離)

エージェントはNitro Enclaveの内部で動作します — ネットワークなし、ストレージなし、SSHなし。通信は専らvsockを介して、親インスタンス上のフォワードプロキシへ行われます。

PCR レジスタ 測定内容 重要性
PCR0 Enclaveイメージハッシュ エージェントのバイナリが改ざんされていない
PCR1 カーネル + RAMディスクのハッシュ OSの整合性が検証される
PCR3 IAMロールARNのハッシュ 認可されたインスタンスのみが起動できる
PCR8 署名証明書のハッシュ ソフトウェアの出所が検証される

2. FirecrackerマイクロVM(エフェメラルセッション)

機能FirecrackerDocker
分離 ハードウェア(KVM) 共有カーネル
起動時間 <125ms 約1-5秒
RAMオーバーヘッド <5MB 約50-200MB
脱出リスク 最小 高い
タスク後のクリーンアップ 自動削除 設定が必要

Bedrock AgentCore Runtime は各エージェントセッションを専用のマイクロVMで実行するために Firecracker を使用します。セッション終了直後にメモリは消去されます。

3. Cedarによるゼロトラスト

// 管理されたデバイスのみ + FinanceOpsグループ + 内部ネットワーク
permit(
    principal,
    action == Action::"InvokeAgent",
    resource == Resource::"FinancialAgent"
)
when {
    context.device.is_managed == true &&
    context.identity.groups.contains("FinanceOps") &&
    context.network.source_ip.is_in_range(IPRange::"10.0.0.0/24")
};

4. OPAによるツール検証

package agent.authz
default allow = false

# 非機密テーブルの読み取りを許可
allow {
    input.tool == "DatabaseReader"
    input.operation == "select"
    not input.table == "user_credentials"
}

# 本番環境での破壊的操作をブロック
deny {
    input.operation == "delete"
    input.environment == "production"
    not is_maintenance_window
}

セキュアなデプロイメントチェックリスト

✅ エージェントサ sandbox(FirecrackerマイクロVMまたはNitro Enclave)
✅ 署名済みプラグイン/スキル(暗号的整合性)
✅ ポリシーエンジン(ツール呼び出しごとにOPA/Cedar)
✅ ネットワーク分離(エージェント、ツール、データ用に別々のサブネット)
✅ 資格情報ボルト(Secrets Manager — 平文を使わない)
✅ 送出フィルタリング(転送プロキシ経由のドメイン許可リスト)
✅ 自動応答(EventBridge → Lambda キルスイッチ)
✅ 不変ログ(CloudWatch + 改ざん防止)
✅ デバイス姿勢検証(Verified Access)
✅ セッションスコープのメモリ(セッション間の永続化なし)

主要なポイント

  1. モデルは信頼できない。 セキュリティは挙動ではなく構造的であるべきだ。 エージェントを安全に保つには、プロンプト設計だけに頼ることはできない。

  2. 間接的プロンプトインジェクションが最大の脅威。 それはエージェントを従来のソフトウェアと本質的に異ならせる attackベクターです。防御の各層はそれを考慮する必要があります。

  3. 72分のデータ流出 は人間のスピードの対応が時代遅れであることを意味します。 EventBridge + Lambdaでインシデント対応を自動化してください。

  4. AIスキルの36.8% にセキュリティ上の欠陥があります (Snyk ToxicSkills)。 すべてのプラグインを信頼できないコードとして扱ってください。

  5. エージェントの攻撃表面 = LLM推論 + ツール実行 + ファイルシステムアクセス + インターネットアクセス。 各層を個別に安全にします。

  6. ツールは今日存在します。 AWS(Nitro、Firecracker、AgentCore)、GCP(Confidential VM)、またはオープンソース(Kata、gVisor、OPA)を使用するかどうかに関わらず、原則は同じです:ハードウェア分離 + ポリシー適用 + 一時的な計算

参考文献

  1. Oasis Security — ClawJacked 技術報告書 (CVE-2026-25253)
  2. NIST NVD — CVE-2026-28363 (CVSS 9.9)
  3. Snyk — ToxicSkills Study (Feb 2026)
  4. Wiz Research — Moltbook breach analysis
  5. Anthropic — GTG-1002: First AI-Orchestrated Espionage Campaign
  6. Palo Alto Networks — Unit 42 Global Incident Response Report 2026
  7. CrowdStrike — Global Threat Report 2025
  8. AWS — Security Reference Architecture for Generative AI (Capability 5)
  9. AWS — Nitro Enclaves Cryptographic Attestation Documentation
  10. AWS — Bedrock AgentCore Runtime
  11. arXiv:2602.22724 — AgentSentry
  12. arXiv:2603.11619 — Taming OpenClaw
  13. arXiv:2601.15654 — Zombie Agents
  14. NIST RFI 2026-00206 — AIエージェントのセキュリティ考慮事項

この情報が役に立った場合、今後のクラウドセキュリティの深掘りをフォローしてください。ご質問はコメント欄にどうぞ。