論文: https://arxiv.org/abs/2604.04759
このOpenClawの論文は、これまでで最も明確なシグナルの1つで、エージェントのリスクはモデルの品質だけではなく、アーキテクチャに起因するものだということを示しています。
いくつかの結果が特に目立ちました:
- 毒入れ Capability / Identity / Knowledge により、攻撃成功が ~24.6% から ~64–74% へ押し上がる
- それでも最も強力なモデルでも、基準となる脆弱性の 3倍以上に跳ね上がる
- 最も強力な防御でも、Capability を狙った攻撃は ~63.8% のまま残る
- ファイル保護は攻撃の約 97% を遮断する…が、正当なアップデートもほぼ同じ割合で遮断してしまう
私にとっての重要なポイントは、「エージェントが毒入れされ得る」ということだけではありません。
状態が侵害された後でも、実行が到達可能だということです。
そこに、現状の防御が不完全に感じる点があります:
- プロンプトが振る舞いを形作る
- モニタリングが何が起きたかを知らせる
- ファイル保護がシステムをフリーズする
しかし、これらはいずれも、「ある行動が実行できるかどうか」のための明確な強い境界を定義していません。
この論文が示しているのは、基本的にこういうことです:
侵害された状態がそれでも実行に到達できるなら、
攻撃は依然として成立し得る。
欠けている層は:
提案 -> 認可 -> 実行
のように、決定論的な判断があることだと感じます:
(意図, 状態, ポリシー) -> 許可 / 諒解
そして、有効な認可が存在しないなら:
実行経路はまったく存在しない。
他の方々はこの論文をどう読んでいるのでしょうか。
これを主に次のどれとして見ていますか:
メモリ/状態の毒入れ問題
能力(capability)の分離問題
あるいは、エージェントには実行時の認可レイヤーが必要だという証拠?
[リンク] [コメント]


