Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

arXiv cs.AI / 2026/3/24

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 先行研究や現場ツール(ステートチェックポイント、実行トレース、テレメトリ標準)はあるものの、「なぜその行動を選んだか」をスキーマとして正規化・検索可能に記録する“構造化された推論プロベナンス”が第一級のプリミティブとして不足していると指摘しています。
  • 提案論文では、Agent Execution Record(AER)として、意図・観測・推論(推論が戦略にどう影響したか)・証拠・構造化された評決と信頼度・計画の改訂理由・委譲権限チェーンを、各ステップにクエリ可能なフィールドとして格納する枠組みを導入しています。
  • 計算状態の永続化(state persistence)と推論プロベナンスは本質的に別物であり、前者から後者を一般に完全再構成できないと論じています。
  • AERにより、エージェント集団に対する推論パターンのマイニング、信頼度の校正、エージェント間比較、モックリプレイを用いた反実仮想的な回帰テストなどの“集団レベルの行動分析”が可能になることを示します。
  • ドメイン非依存のモデル、拡張可能なドメインプロファイル、参照実装とSDK、そして本番のルート原因分析エージェントでの予備的展開に触発された評価手法を提示しています。

Abstract

As AI agents transition from human-supervised copilots to autonomous platform infrastructure, the ability to analyze their reasoning behavior across populations of investigations becomes a pressing infrastructure requirement. Existing operational tooling addresses adjacent needs effectively: state checkpoint systems enable fault tolerance; observability platforms provide execution traces for debugging; telemetry standards ensure interoperability. What current systems do not natively provide as a first-class, schema-level primitive is structured reasoning provenance -- normalized, queryable records of why the agent chose each action, what it concluded from each observation, how each conclusion shaped its strategy, and which evidence supports its final verdict. This paper introduces the Agent Execution Record (AER), a structured reasoning provenance primitive that captures intent, observation, and inference as first-class queryable fields on every step, alongside versioned plans with revision rationale, evidence chains, structured verdicts with confidence scores, and delegation authority chains. We formalize the distinction between computational state persistence and reasoning provenance, argue that the latter cannot in general be faithfully reconstructed from the former, and show how AERs enable population-level behavioral analytics: reasoning pattern mining, confidence calibration, cross-agent comparison, and counterfactual regression testing via mock replay. We present a domain-agnostic model with extensible domain profiles, a reference implementation and SDK, and outline an evaluation methodology informed by preliminary deployment on a production platformized root cause analysis agent.