多くの人がAIセキュリティについて考えるとき、技術的な攻撃を思い浮かべます。
しかし、AIエージェントに対する最も効果的な攻撃の1つは、驚くほど見慣れたものに見えます:
ソーシャルエンジニアリング。
人間は何十年もかけて、次のようなものを見分けることを学んできました:
• フィッシング
• なりすまし
• 操作
• 不審な要求
AIエージェントはまだそれを学んでいません。
エージェントが失敗するのに、マルウェアは必要ありません。
必要なのは、説得力のある指示だけであることもあります。
だからこそ、プロンプトインジェクションはとても興味深いのです。
攻撃の多くは、ソフトウェアを悪用しているわけではありません。
悪用しているのは、信頼です。
操作された指示によって、エージェントは次のことを行う可能性があります:
• 安全策を無視する
• 情報を開示する
• 挙動を変更する
• 意図しないアクションを実行する
そして、その指示が正当なものに見えるため、従来のセキュリティ対策では気付かないことがあります。
AIエージェントが次の機能を得るにつれて:
• メモリ
• ツールアクセス
• 自律性
• ワークフロー制御
…誤った信頼を置くコストは増大します。
これは、私たちがCrucibleの構築を始めた理由の1つです:
「AIエージェントのためのPytest」。
次のためのオープンソースのフレームワーク:
• プロンプトインジェクションのテスト
• 敵対的評価
• 挙動のモニタリング
• エージェントのセキュリティテスト
AIシステムを守ることは、コードだけの問題ではありません。
それは、信頼の問題です。




