Session Risk Memory (SRM): 決定論的な事前実行安全ゲートのための時間的(temporal)な認可
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、決定論的な各アクションごとの安全ゲートは、悪意の意図を分散攻撃によって個々には準拠して見える手順に分割することで回避され、「セッション/軌跡(trajectory)レベル」における“時間的(temporal)”なセキュリティの隙間が生じ得ると主張する。
- 軌跡(trajectory)レベルの認可を追加するために、コンパクトな意味セントロイド(semantic centroid)を維持し、基準差分(baseline-subtracted)されたゲート出力を指数移動平均(exponential moving average)で蓄積してリスク信号を生成する、軽量で決定論的なモジュールとして Session Risk Memory (SRM) を提案する。
- SRM は、追加のモデル構成要素、学習、または確率的推論を不要とするよう設計されている。これは、基盤となる認可ゲートと同じ意味ベクトル表現の上で動作するためである。
- 80セッションのマルチターン・ベンチマーク(ゆっくりと進む情報持ち出し、段階的な特権昇格、準拠のドリフト)での実験では、ILION+SRM が F1=1.0000、偽陽性 0% を達成し、ステートレスな ILION は F1=0.9756、偽陽性率 5% であることを示しつつ、両者とも検出率 100% を維持している。
- 本アプローチは、空間的な認可整合性(各アクション単位)と時間的な認可整合性(軌跡全体)との区別を形式化し、エージェント型システムにおけるセッション・レベルの安全性に対して、原理に基づく基盤を <250 マイクロ秒/ターンのオーバーヘッドで提供することを目指している。
