LLMベースのエージェントにおけるポリシー非可視の違反

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースのエージェントにおける新たな失敗モード「ポリシー非可視の違反」を特定する。それは、アクションが構文的に正しく、ユーザーに承認され、意味論的にも適切であるにもかかわらず、意思決定時点で組織のポリシーに関連する事実が欠落しているために、なおポリシーに違反してしまう状況である。
  • 意図的にポリシーのメタデータを省いたツール応答を含む、8つの違反カテゴリをカバーするベンチマーク「PhantomPolicy」を導入し、人手によるトレース単位のレビューによって32ラベル(5.3%)が変更されたことを報告する(元のアノテーションとの比較)。
  • 本研究では、反実仮想のグラフシミュレーションと不変条件チェック(Allow/Block/Clarify)を用いて、模擬的な組織の知識グラフの「事後(post-action)」ワールド状態に基づきポリシー判断を行う、強制フレームワーク「Sentinel」を提案する。
  • 人手でレビューされたトレースラベルに対する評価では、Sentinelは、コンテンツのみのDLPベースライン(93.0% vs. 68.8%として報告)よりも大幅に精度を向上させつつ、高い適合率(precision)を維持する。一方で、一部のカテゴリは依然として難しい。

要旨: LLMベースのエージェントは、構文的に正しく、ユーザーが許可したものであり、意味的にも適切なアクションを実行できますが、意思決定時に必要な事実が隠れているために、組織のポリシーに違反してしまうことがあります。この失敗モードを「ポリシーが見えない違反(policy-invisible violations)」と呼びます。すなわち、コンプライアンスが、エンティティ属性、文脈上の状態、またはエージェントが見えているコンテキストに存在しないセッション履歴に依存しているために起きるケースです。私たちは、8つの違反カテゴリにまたがるベンチマークであるPhantomPolicyを提示します。そこでは、違反ケースと安全な制御(safe-control)ケースがバランス良く含まれており、すべてのツール応答にはポリシーメタデータではなく、クリーンな業務データが含まれています。私たちは、5つのフロンティアモデルによって生成された全600のモデル・トレースを手動でレビューし、人手によるトレース・ラベルを用いて評価しました。手動レビューでは、元のケース単位の注釈に比べて32ラベル(5.3%)が変更され、人手によるトレースレベルのレビューが必要であることが確認されました。有利な条件のもとで、世界状態に根差した強制(enforcement)が何を達成できるのかを示すために、反実仮想グラフシミュレーションに基づく強制フレームワークSentinelを導入します。Sentinelは、すべてのエージェントのアクションを、組織の知識グラフに対する提案された変異(mutation)として扱い、推論実行(speculative execution)によってアクション後の世界状態を具体化し、グラフ構造の不変条件(invariants)を検証することでAllow/Block/Clarifyを決定します。人手によるトレース・ラベルに対して、SentinelはコンテンツのみのDLPベースライン(68.8% vs. 93.0%精度)を大幅に上回り、高い精度を維持しつつも、特定の違反カテゴリではなお改善の余地が残っています。これらの結果は、ポリシーに関わる世界状態を強制レイヤーに利用可能にしたとき、何が実現し得るのかを示しています。