Session Risk Memory (SRM): 決定論的な事前実行安全ゲートのための時間的(temporal)な認可

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、決定論的な各アクションごとの安全ゲートは、悪意の意図を分散攻撃によって個々には準拠して見える手順に分割することで回避され、「セッション/軌跡(trajectory)レベル」における“時間的(temporal)”なセキュリティの隙間が生じ得ると主張する。
  • 軌跡(trajectory)レベルの認可を追加するために、コンパクトな意味セントロイド(semantic centroid)を維持し、基準差分(baseline-subtracted)されたゲート出力を指数移動平均(exponential moving average)で蓄積してリスク信号を生成する、軽量で決定論的なモジュールとして Session Risk Memory (SRM) を提案する。
  • SRM は、追加のモデル構成要素、学習、または確率的推論を不要とするよう設計されている。これは、基盤となる認可ゲートと同じ意味ベクトル表現の上で動作するためである。
  • 80セッションのマルチターン・ベンチマーク(ゆっくりと進む情報持ち出し、段階的な特権昇格、準拠のドリフト)での実験では、ILION+SRM が F1=1.0000、偽陽性 0% を達成し、ステートレスな ILION は F1=0.9756、偽陽性率 5% であることを示しつつ、両者とも検出率 100% を維持している。
  • 本アプローチは、空間的な認可整合性(各アクション単位)と時間的な認可整合性(軌跡全体)との区別を形式化し、エージェント型システムにおけるセッション・レベルの安全性に対して、原理に基づく基盤を <250 マイクロ秒/ターンのオーバーヘッドで提供することを目指している。

Abstract

決定論的な事前実行安全ゲートは、個々のエージェントの行動が割り当てられた役割と両立可能かどうかを評価する。これらの仕組みは行動単位の許可に対して有効である一方で、有害な意図を複数のそれぞれ個別には適合するステップに分解することで成立する分散型攻撃には構造的に盲目である。本論文では、セッショ ン・リスク・メモリ(SRM)という軽量な決定論的モジュールを導入し、無状態の実行ゲートを拡張して、軌跡(トラジェクトリ)レベルの許可を実現する。SRMは、エージェント・セッションの進行中の行動プロファイルを表すコンパクトな意味重心(セマンティック・セントロイド)を維持し、ベースラインから差し引いたゲート出力に対して指数移動平均を用いてリスク信号を蓄積する。SRMは、基盤となるゲートと同じ意味ベクトル表現上で動作し、追加のモデル構成要素、学習、確率的推論を一切必要としない。私たちは、遅延して進行する情報流出、段階的な権限昇格、コンプライアンスのドリフトといったシナリオを含む80セッションのマルチターン・ベンチマークでSRMを評価した。結果として、ILION+SRMはF1 = 1.0000、誤検知率0%を達成したのに対し、無状態のILIONはF1 = 0.9756、FPR 5%でありながら、両システムとも検出率は100%を維持した。決定的に重要なのは、SRMが1ターンあたり250マイクロ秒未満のオーバーヘッドで、すべての誤検知を解消する点である。本フレームワークは、空間的な許可整合性(行動ごとに評価)と時間的な許可整合性(軌跡にわたって評価)という概念的な区別を導入し、エージェント型システムにおけるセッション・レベルの安全性のための原理に基づく基盤を与える。

Session Risk Memory (SRM): 決定論的な事前実行安全ゲートのための時間的(temporal)な認可 | AI Navigate