終わらせられないことを始めるな:LLMエージェントにおけるサポート状態トリアージの反実仮想監査

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントの評価の多くが「タスクがなぜ詰まっているのか」を行動の前に診断できる能力を見落としており、完全に指定された実行結果や関連行動を個別に扱う研究に偏っている点を指摘しています。
  • 支援(サポート)の状態を反実仮想的に切り替える診断枠組みとして、Support-State Triage Audit(SSTA-32)を提案し、同一の基礎リクエストを「Complete(ANSWER)」「Clarifiable(CLARIFY)」「Support-Blocked(REQUEST SUPPORT)」「Unsupported-Now(ABSTAIN)」の4状態へ最小限の編集で反転させます。
  • 最先端モデルを4種類のプロンプト条件で評価すると、「Direct」のデフォルト実行は完了でないタスクに過剰に踏み込む(41.7%のovercommitment)一方、信頼度のスカラー写像は過剰踏み込みを抑えるものの、保留の3分類をうまく区別できません(58.3%のtyped deferral accuracy)。
  • これに対し、「Action-Only」と「typed Preflight Support Check(PSC)」は、プロンプト内でカテゴリ別の判断オントロジーを明示することで、typed deferral accuracyを91.7%まで高めます。
  • アブレーション(部分除去)により、サポート充足性の次元を取り除くとREQUEST SUPPORTの精度が選択的に低下し、証拠充足性の次元を取り除くと未サポート項目で体系的に過剰踏み込みが増えることが示されます。また、単一コンテキストウィンドウ内で動作するため能力推定は上限であると著者は述べています。

要旨: 現在のエージェント評価は、主として完全に指定されたタスクの実行を報いるものになっていますが、近年の研究では、明確化の作業 [11, 22, 2]、能力の認識 [9, 1]、棄権 [8, 14]、および探索の終了 [20, 5] が主に孤立して扱われています。これにより、エージェントが行動する前に、なぜタスクが妨げられているのかを診断できるのかが未解決のまま残されています。そこで本研究では、最小限の反事実的編集によって同一の基礎となる要求を4つのサポート状態へと反転させる、一致アイテム型の診断フレームワークである Support-State Triage Audit(SSTA-32)を提案します。サポート状態は、Complete(ANSWER)、Clarifiable(CLARIFY)、Support-Blocked(REQUEST SUPPORT)、Unsupported-Now(ABSTAIN)です。私たちは、4つのプロンプト条件――Direct、Action-Only、Confidence-Only、および型付きの Preflight Support Check(PSC)――のもとでフロンティアモデルを評価し、決定論的なヒューリスティックによる採点を行う Dual-Persona Auto-Auditing(DPAA)を用います。デフォルトの実行は、非完了タスクに大きく過剰コミットしており(過剰コミット率 41.7%)、スカラーな信頼度のマッピングでは過剰コミットは回避できるものの、3段階の先送り空間が崩れてしまいます(型付きの先送り精度 58.3%)。一方で、Action-Only と PSC は、プロンプト内でカテゴリ的なオントロジーを提示することで、いずれも 91.7% の型付き先送り精度を達成します。狙いを定めたアブレーションにより、サポート十分性の次元を取り除くと REQUEST SUPPORT の精度が選択的に低下し、証拠十分性の次元を取り除くと、未サポートのアイテムに対して体系的な過剰コミットが引き起こされることが確認されます。DPAA は単一のコンテキストウィンドウ内で動作するため、これらの結果は能力推定の上限を表します。それでも、構造的な知見は、フロンティアモデルが強力な潜在的トリアージ能力を備えている一方で、安全に作動させるには明示的なカテゴリ決定経路が必要であることを示しています。