NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

arXiv cs.AI / 5/5/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • NeuroState-Benchは、LLMエージェントの「コミットメント整合性」を、推測された内部活性ではなくベンチマーク定義のサイド質問(プローブ)で検証する人手校正ベンチマークとして提案されています。
  • ベンチには144の決定論的タスクと306のサイド質問プローブが含まれ、失敗の8つの系統、クリーン/ダミー(ディストラクタ)変種、3段階の難度にわたって整理されています。
  • 主な32プロフィール評価では、16プロフィールのローカル固定サブセットと、同一パイプラインで評価する16プロフィールのホステッド大規模モデルサブセットを用いており、評価者間一致は高い水準(weighted kappa=0.977、ICC=0.977)です。
  • 実験では、タスク成功率とコミットメント整合性は一致せず、成功トップと整合性トップが異なり、整合性を主指標にすると32プロフィールのうち31が順位を変えるなど、重要な評価ギャップが示されています。
  • さらに、HCCIS-CORE(信頼度不要のスコア)は、終端タスク失敗の診断識別でのAUC/PR-AUCが改善し、従来のHCCIS-FULLより優れていることが報告されています。

Abstract

Outcome-only evaluation under-specifies whether an evaluated agent profile preserves the commitments required to solve a multi-turn task coherently. NeuroState-Bench is a human-calibrated benchmark that operationalizes commitment integrity through benchmark-defined side-query probes rather than inferred hidden activations. The released inventory contains 144 deterministic tasks and 306 benchmark-defined side-query probes spanning eight cognitively motivated failure families, paired clean and distractor variants, and three difficulty bands. The main 32-profile evaluation contains a fixed 16-profile local subset and a matched 16-profile hosted large-model subset evaluated through the same benchmark pipeline. Human calibration uses the final merged reporting scope: 104 sampled task units, 216 raw annotations, and 108 adjudicated task rows, with weighted kappa = 0.977 and ICC(2,1) = 0.977. Empirically, task success and commitment integrity diverge across this expanded grid: the success leader is not the integrity leader, 31 of 32 profiles change rank when integrity replaces task success, and integrity rankings are more stable under distractor perturbation. The primary confidence-free score HCCIS-CORE reaches 0.8469 AUC and 0.6992 PR-AUC for post-probe diagnostic discrimination of terminal task failure; the legacy full heuristic variant HCCIS-FULL reaches 0.7997 AUC and 0.6410 PR-AUC. Probe accuracy and state drift achieve slightly higher ROC-AUC, 0.8587, and better Brier/ECE, while HCCIS-CORE has substantially higher point-estimate PR-AUC and remains more closely tied to the benchmark's intended construct. The exploratory neural-augmented variant HCCIS+N is weaker overall, and a randomized subspace control approaches chance. NeuroState-Bench therefore contributes a calibrated evaluation axis for exposing commitment failures over a broader model grid than the original local-only subset.