このOpenClawの論文は、なぜエージェントの安全性が「モデルの問題」だけでなく「実行の問題」であるのかを示している

Reddit r/artificial / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントの安全性リスクは主に実行/アーキテクチャの問題であると主張する。なぜなら、強力なモデルや既存の防御があっても、状態が一度侵害された後は有害な行動を実行してしまうことがあるからである。
  • 実験では、「Capability/Identity/Knowledge」の汚染によって攻撃の成功率が約24.6%からおよそ64〜74%まで大きく上昇することが示されており、最も強力なモデルであっても基準値に対して3倍超の脆弱性が観測される。
  • 評価された最善の防御でさえ、能力(capability)を標的にした攻撃に対しては高い有効性(約63.8%)を残しており、プロンプトの調整や行動の監視だけに依存する防御では不十分であることが示唆される。
  • ファイル保護は攻撃の約97%を阻止できるが、正当なアップデートもほぼ同程度の割合で阻止してしまうため、安全性強化と業務の継続性の間にトレードオフが存在することが分かる。
  • 著者は、エージェント・パイプラインに欠けている安全境界として提案している。すなわち、(提案→認可→実行)の形で実行時の認可ステップを強制し、ポリシー検証に失敗した場合は決定論的なALLOW/DENY判断により実行経路を排除することである。

論文: https://arxiv.org/abs/2604.04759

このOpenClawの論文は、これまでで最も明確なシグナルの1つで、エージェントのリスクはモデルの品質だけではなく、アーキテクチャに起因するものだということを示しています。

いくつかの結果が特に目立ちました:

- 毒入れ Capability / Identity / Knowledge により、攻撃成功が ~24.6% から ~64–74% へ押し上がる

- それでも最も強力なモデルでも、基準となる脆弱性の 3倍以上に跳ね上がる

- 最も強力な防御でも、Capability を狙った攻撃は ~63.8% のまま残る

- ファイル保護は攻撃の約 97% を遮断する…が、正当なアップデートもほぼ同じ割合で遮断してしまう

私にとっての重要なポイントは、「エージェントが毒入れされ得る」ということだけではありません。

状態が侵害された後でも、実行が到達可能だということです。

そこに、現状の防御が不完全に感じる点があります:

- プロンプトが振る舞いを形作る

- モニタリングが何が起きたかを知らせる

- ファイル保護がシステムをフリーズする

しかし、これらはいずれも、「ある行動が実行できるかどうか」のための明確な強い境界を定義していません。

この論文が示しているのは、基本的にこういうことです:

侵害された状態がそれでも実行に到達できるなら、

攻撃は依然として成立し得る。

欠けている層は:

提案 -> 認可 -> 実行

のように、決定論的な判断があることだと感じます:

(意図, 状態, ポリシー) -> 許可 / 諒解

そして、有効な認可が存在しないなら:

実行経路はまったく存在しない。

他の方々はこの論文をどう読んでいるのでしょうか。

これを主に次のどれとして見ていますか:

  1. メモリ/状態の毒入れ問題

  2. 能力(capability)の分離問題

  3. あるいは、エージェントには実行時の認可レイヤーが必要だという証拠?

提出者 /u/docybo
[リンク] [コメント]