[D] あなたのエージェント、相手の資産:OpenClawエージェントの現実世界における安全性評価(CIK汚染により攻撃成功率が約64–74%に上昇)

Reddit r/MachineLearning / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Gmail、Stripe、ローカルファイルシステムへのアクセスを備えたOpenClawパーソナルAIエージェントについて、複数のモデルを用い、実運用環境で12件のライブ・システム攻撃シナリオによって安全性を評価した実証結果を報告している。
  • ベースラインの攻撃成功率は約~10–36.7%だが、単一の永続状態の次元(CIK)を汚染すると、約~64–74%まで上昇しうる。さらに最も強力なモデルでも、脆弱性の増加が>3×となることが示されている。
  • 著者らの「エージェントの永続的状態」に関する分類(Capability, Identity, Knowledge)は、本質的な問題をモデル固有ではなく構造的なものとして位置づけ、状態が侵害されると実行(execution)が到達可能であることを強調している。
  • 既存の防御(例:プロンプト・レベルのアライメント、監視/ログ、いくつかの状態保護)は「能力(capability)」攻撃を完全には防げず、最善の防御でも能力攻撃の成功率はなお約~63.8%残る。
  • 本論文は、(意図, 状態, ポリシー)を評価してALLOW/DENYを決定するような、より強力な実行時(execution-time)制御として、決定論的な認可への転換を主張している。すなわち、明示的に許可された場合にのみ実行が行われるべきだとする。

論文: https://arxiv.org/abs/2604.04759

本論文は、Gmail、Stripe、ローカルファイルシステムにアクセスできるパーソナルAIエージェントであるOpenClawの、現実世界における安全性評価を提示します。

著者らは、持続的なエージェント状態の分類法(タクソノミー)を導入しています:

- 能力(スキル / 実行可能コード)

- アイデンティティ(ペルソナ、信頼設定)

- 知識(メモリ)

彼らは、複数のモデルにわたるライブシステム上で12の攻撃シナリオを評価しました。

主要な結果:

- ベースラインの攻撃成功率: 約10–36.7%

- 単一の次元(CIK)を汚染した後: 約64–74%

- 最も強力なモデルでさえ脆弱性が&g t;3倍に増加

- 最良の防御でも、Capability攻撃は約63.8%のまま残る

- ファイル保護は攻撃を減らす(約97%)が、正当な更新も同程度の確率でブロックしてしまう

本論文は、これらの脆弱性はモデル固有ではなく構造的なものだと主張しています。

ひとつの解釈として、現行の防御は主に振る舞いまたは文脈レベルで機能している、という点が挙げられます:

- プロンプトレベルのアライメント

- モニタリング / ロギング

- 状態保護メカニズム

しかし、システム状態が侵害されると、実行は依然として到達可能です。

これは、別の枠組みを示唆します:

提案 -> 承認 -> 実行

ここで承認は決定論的に評価されます:

(意図, 状態, ポリシー) -> 許可 / 却下

そして、明示的に承認された場合にのみ実行が到達可能になります。

他の人がこれをどう解釈しているのか気になります:

  1. これは主に、持続的な状態汚染の問題ですか?

  2. 能力の隔離 / サンドボックス化の問題ですか?

  3. あるいは、エージェントシステムにはより強力な実行時制御レイヤが必要だという証拠ですか?

提出者 /u/docybo
[link] [comments]