NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles
arXiv cs.AI / 5/5/2026
📰 NewsIdeas & Deep AnalysisModels & Research
Key Points
- NeuroState-Benchは、LLMエージェントの「コミットメント整合性」を、推測された内部活性ではなくベンチマーク定義のサイド質問(プローブ)で検証する人手校正ベンチマークとして提案されています。
- ベンチには144の決定論的タスクと306のサイド質問プローブが含まれ、失敗の8つの系統、クリーン/ダミー(ディストラクタ)変種、3段階の難度にわたって整理されています。
- 主な32プロフィール評価では、16プロフィールのローカル固定サブセットと、同一パイプラインで評価する16プロフィールのホステッド大規模モデルサブセットを用いており、評価者間一致は高い水準(weighted kappa=0.977、ICC=0.977)です。
- 実験では、タスク成功率とコミットメント整合性は一致せず、成功トップと整合性トップが異なり、整合性を主指標にすると32プロフィールのうち31が順位を変えるなど、重要な評価ギャップが示されています。
- さらに、HCCIS-CORE(信頼度不要のスコア)は、終端タスク失敗の診断識別でのAUC/PR-AUCが改善し、従来のHCCIS-FULLより優れていることが報告されています。
Related Articles

When Claims Freeze Because a Provider Record Drifted: The Case for Enrollment Repair Agents
Dev.to

The Cash Is Already Earned: Why Construction Pay Application Exceptions Fit an Agent Better Than SaaS
Dev.to

Why Ship-and-Debit Claim Recovery Is a Better Agent Wedge Than Another “AI Back Office” Tool
Dev.to
AI is getting better at doing things, but still bad at deciding what to do?
Reddit r/artificial

I Built an AI-Powered Chinese BaZi (八字) Fortune Teller — Here's What DeepSeek Revealed About Destiny
Dev.to