NeuroState-Bench：LLMエージェントプロフィールにおけるコミットメント整合性を人手で校正するベンチマーク

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

NeuroState-Benchは、LLMエージェントの「コミットメント整合性」を、推測された内部活性ではなくベンチマーク定義のサイド質問（プローブ）で検証する、人手で校正されたベンチマークとして提案されています。
ベンチには144の決定論的タスクと306のサイド質問プローブが含まれ、失敗の8つの系統、クリーン/ダミー（ディストラクタ）変種、3段階の難度にわたって設計されています。
主な32プロフィール評価では、16プロフィールのローカル固定サブセットと、同一パイプラインで評価する16プロフィールのホステッド大規模モデルサブセットを用いており、評価者間一致は高い水準（weighted kappa=0.977、ICC=0.977）です。
実験では、タスク成功率とコミットメント整合性が必ずしも一致せず、成功トップと整合性トップが異なるほか、整合性を主指標にすると32プロフィールのうち31が順位を変えるなど、重要な評価のずれが示されています。
さらに、HCCIS-CORE（信頼度不要のスコア）は、終端タスク失敗の診断識別でAUC/PR-AUCが改善し、従来のHCCIS-FULLより優れていることが報告されています。

要旨: 結果のみの評価は、評価されたエージェントのプロファイルが、多段（マルチターン）タスクを首尾一貫して解くために必要なコミットメントを保持しているかどうかを、過小にしか特定できません。NeuroState-Benchは、人間によって較正されたベンチマークであり、推論された隠れた活性（hidden activations）ではなく、ベンチマーク定義のサイドクエリ・プローブを通じてコミットメント整合性（commitment integrity）を実運用化します。公開されたインベントリには、144の決定論的タスクと、認知的に動機づけられた8つの失敗ファミリにまたがる306のベンチマーク定義サイドクエリ・プローブが含まれており、クリーン版とディストラクタ（攪乱）版の組、さらに3つの難易度帯が用意されています。主要な32プロファイルの評価では、固定された16プロファイルのローカル部分集合と、同一のベンチマーク・パイプラインで評価された、対応する16プロファイルのホスト型大規模モデル部分集合の両方が含まれます。人間による較正は、最終的に統合された報告範囲を用います。すなわち、104のサンプルされたタスク単位、216の生アノテーション、そして108の裁定されたタスク行であり、重み付きκ（kappa）= 0.977、ICC(2,1) = 0.977です。経験的には、この拡張された格子（グリッド）において、タスク成功とコミットメント整合性は分岐します。成功のリーダーは整合性のリーダーではなく、整合性がタスク成功の代わりに用いられると32プロファイル中31が順位を変更し、ディストラクタ摂動下では整合性のランキングの方がより安定しています。主要な、信頼度フリーのスコアであるHCCIS-COREは、終端タスク失敗の事後プローブ診断における識別で、AUCが0.8469、PR-AUCが0.6992に達します。従来の完全ヒューリスティック版であるHCCIS-FULLは、AUCが0.7997、PR-AUCが0.6410です。プローブ精度と状態ドリフトは、わずかに高いROC-AUC（0.8587）を達成し、さらにBrier/ECEもより良好ですが、HCCIS-COREは点推定のPR-AUCが大幅に高く、ベンチマークが意図した構成概念（construct）により密接に結びつき続けます。探索的なニューラル拡張版であるHCCIS+Nは全体として弱く、ランダム化された部分空間（サブスペース）制御は偶然に近づきます。したがってNeuroState-Benchは、元の「ローカルのみ」部分集合よりも広いモデル格子にわたってコミットメントの失敗を露出させるための、較正された評価軸を提供します。