論文: https://arxiv.org/abs/2604.04759
本論文は、Gmail、Stripe、ローカルファイルシステムにアクセスできるパーソナルAIエージェントであるOpenClawの、現実世界における安全性評価を提示します。
著者らは、持続的なエージェント状態の分類法(タクソノミー)を導入しています:
- 能力(スキル / 実行可能コード)
- アイデンティティ(ペルソナ、信頼設定)
- 知識(メモリ)
彼らは、複数のモデルにわたるライブシステム上で12の攻撃シナリオを評価しました。
主要な結果:
- ベースラインの攻撃成功率: 約10–36.7%
- 単一の次元(CIK)を汚染した後: 約64–74%
- 最も強力なモデルでさえ脆弱性が&g t;3倍に増加
- 最良の防御でも、Capability攻撃は約63.8%のまま残る
- ファイル保護は攻撃を減らす(約97%)が、正当な更新も同程度の確率でブロックしてしまう
本論文は、これらの脆弱性はモデル固有ではなく構造的なものだと主張しています。
ひとつの解釈として、現行の防御は主に振る舞いまたは文脈レベルで機能している、という点が挙げられます:
- プロンプトレベルのアライメント
- モニタリング / ロギング
- 状態保護メカニズム
しかし、システム状態が侵害されると、実行は依然として到達可能です。
これは、別の枠組みを示唆します:
提案 -> 承認 -> 実行
ここで承認は決定論的に評価されます:
(意図, 状態, ポリシー) -> 許可 / 却下
そして、明示的に承認された場合にのみ実行が到達可能になります。
他の人がこれをどう解釈しているのか気になります:
これは主に、持続的な状態汚染の問題ですか?
能力の隔離 / サンドボックス化の問題ですか?
あるいは、エージェントシステムにはより強力な実行時制御レイヤが必要だという証拠ですか?
[link] [comments]



