長文コンテキストのLLMエージェントではオミッション制約が減衰し、コミッション制約は持続する

arXiv cs.AI / 2026/4/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本番で使われるLLMエージェントは、システムプロンプト等で定義された禁止・要件(行動制約)のもとで動く前提で評価されるが、長い文脈により禁止系の制約が劣化しやすいことが示された。
  • 4,416試行の因果研究では、オミッション(禁止)コンプライアンスはターン5で73%からターン16で33%に低下する一方、コミッション(要件)コンプライアンスは一貫して100%で維持された。
  • この非対称性は「Security-Recall Divergence(SRD)」として整理され、標準的な監視ではコミッション側の監査信号が正常でも、禁止違反が見逃されうることが指摘された。
  • 制約の再注入を、モデルごとに定義したSafe Turn Depth(STD)より前に行うことで、再学習なしにコンプライアンスを回復できることが報告されている。
  • トークン対応のパディング制御があるモデルでは、劣化(希釈)効果の主因としてスキーマの意味内容が62〜100%を占めることが示唆された。

概要: 本番環境に展開されたLLMエージェントは、運用者が定義した行動ポリシー(資格情報の開示禁止、データの流出禁止、許可されていない出力の禁止などのシステムプロンプト指示)のもとで動作し、安全性評価はこれらが会話の全期間にわたって維持されることを前提としている。禁止型の制約は文脈の圧力によって減衰する一方、要求型の制約は持続する。これを我々はSecurity-Recall Divergence(SRD)と呼ぶ。12モデルおよび8つの提供元にまたがる、6つの会話深度で実施した4,416試行の3群因果研究において、脱落(omission)への準拠率はターン5で73%からターン16で33%へ低下するが、違反(commission)への準拠率は100%のままである(Mistral Large 3、p < 10^{-33})。トークン一致のパディング制御を行った2つのモデルでは、スキーマの意味内容が希釈(dilution)効果の62〜100%を占める。モデルごとのSafe Turn Depth(STD)より前に制約を再注入することで、再学習なしに準拠が回復する。本番環境のセキュリティポリシーは、資格情報を決して開示しないこと、信頼されていないコードを決して実行しないこと、ユーザーデータを決して転送しないことといった禁止で構成される。違反(commission)型の監査シグナルは健全なままである一方、脱落(omission)の制約はすでに失敗しており、その失敗は標準的な監視からは見えなくなってしまう。