Auditable Agents

arXiv cs.AI / 4/8/2026

💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

Key Points

  • 論文「Auditable Agents」は、LLMエージェントが外部ツールやDB、外部の副作用まで実行できる状況では、危険防止だけでなく“デプロイ後に行為が説明責任(answerability)を持つこと”が重要になると論じています。
  • 説明責任(accountability)を可能にするためのシステム特性として“監査可能性(auditability)”を定義し、監査(auditing)によって信頼できる証拠から行動を再構成することが鍵だと主張します。
  • 監査可能性を実運用に落とすために、行為の復元可能性、ライフサイクルのカバレッジ、ポリシーチェッカビリティ、責任帰属、証拠の完全性という5つの次元を提示しています。
  • さらに、検知(detect)・強制(enforce)・回復(recover)の3つの機構クラスを提案し、時間的制約や介入制約が単一アプローチでは不十分である理由になると整理しています。
  • エコシステム測定では監査可能性のための基本的なセキュリティ前提が広く欠けていること(主要OSS6件で617件のセキュリティ指摘)、実行時の前実行メディエーションに伴うオーバーヘッド(中央値8.3ms)や、通常ログが欠けても責任に関わる情報が部分的に回復しうる実験結果を示し、Auditability Cardと今後の未解決課題もまとめています。

Abstract

LLM agents call tools, query databases, delegate tasks, and trigger external side effects. Once an agent system can act in the world, the question is no longer only whether harmful actions can be prevented--it is whether those actions remain answerable after deployment. We distinguish accountability (the ability to determine compliance and assign responsibility), auditability (the system property that makes accountability possible), and auditing (the process of reconstructing behavior from trustworthy evidence). Our claim is direct: no agent system can be accountable without auditability. To make this operational, we define five dimensions of agent auditability, i.e., action recoverability, lifecycle coverage, policy checkability, responsibility attribution, and evidence integrity, and identify three mechanism classes (detect, enforce, recover) whose temporal information-and-intervention constraints explain why, in practice, no single approach suffices. We support the position with layered evidence rather than a single benchmark: lower-bound ecosystem measurements suggest that even basic security prerequisites for auditability are widely unmet (617 security findings across six prominent open-source projects); runtime feasibility results show that pre-execution mediation with tamper-evident records adds only 8.3 ms median overhead; and controlled recovery experiments show that responsibility-relevant information can be partially recovered even when conventional logs are missing. We propose an Auditability Card for agent systems and identify six open research problems organized by mechanism class.