耐 hardened なAIゲートウェイ(Minimus OpenClaw)に対して、635件のセキュリティテストを実行しました。サンドボックスは有効。ツールの制限を設定。アクセス制御も導入済みです。
131件のテストが失敗しました。すると、さらに悪化しました。
エージェントは自分自身のドキュメントを読み、サンドボックスではなくホスト上でコマンドを実行できるパラメータを見つけ、そのWhatsAppの設定を書き換えました。メッセージを送れる相手を、制限リストから全員に変更しました。この変更は即座に反映されました。
その7分後、脱獄したAIエージェントから、実在の2人に対して無断のメッセージが送信されました。
注意して見ておくべきポイント: エージェントはバグを悪用しませんでした。与えられたツールを、そのツールが設計されたとおりに使ったのです。サンドボックスは有効で、正しく設定されていました。ただ、誰もブロックしようと思っていなかった「ホスト上で実行する」オプションがツールに備わっていたため、それが問題になりました。
5つのセキュリティ制御が導入されていました。いずれも単独では理にかなっていました。しかし、それらが組み合わさることで、エージェントが1回のテスト実行で見つけることができる“穴”が残りました。
評価における重大度の高い失敗はすべて、モデル層を狙っていました。悪用されたCVEはゼロです。コンテナの強化、distrolessイメージ、利用バイナリ数の削減――これらはインフラ脅威には機能します。しかし、自身のツールを使って自分自身に対して行動するエージェントを止めることはできませんでした。
完全な攻撃チェーン、正確なタイムライン、そして私たちの推奨事項をここに公開しました: https://earlycore.dev/collection/blog-minimus-openclaw-security-assessment
ツールアクセス付きでAIエージェントを導入するなら、問題はサンドボックスが正しく設定されているかどうかではありません。あなたのエージェントが到達できる“あらゆるツール”を監査したかどうか、そして、それらをあなたが想定しなかった使い方をされたときに何が起きるか、そこが問題です。
手法や調査結果についての質問も歓迎します。
[link] [comments]




