要旨: Claude Code の自動モードは、危険なツール呼び出しを制御するために 2 段階の書き起こし(トランスクリプト)分類器を用いる、AI コーディングエージェント向けの最初に導入された権限システムである。Anthropic は、本番トラフィックにおいて 0.4% の偽陽性率、17% の偽陰性率を報告している。本論文では、意図的に曖昧な承認シナリオに対する、このシステムの最初の独立評価を提示する。すなわち、ユーザの意図は明確である一方で、対象範囲、影響範囲(ブ ラスト半径)、またはリスクレベルが過不足なく特定されていないタスクである。AmPermBench を用いて、4 つの DevOps タスクファミリと 3 つの制御された曖昧性軸にまたがる 128 プロンプトのベンチマークにより、個々のアクションレベルで 253 件の状態変更アクションを、オラクルとなる正解(ground truth)に対して評価する。
我々の結果は、このストレステストのワークロードにおける自動モードのスコープ・エスカレーションのカバレッジを特徴付ける。エンドツーエンドの偽陰性率は 81.0%(95% CI: 73.8%-87.4%)であり、本番トラフィックで報告された 17% と比べて大幅に高い。これは、矛盾というよりも、根本的に異なるワークロードであることを反映している。特に、全ての状態変更アクションの 36.8% が、Tier 2(プロジェクト内ファイル編集)により分類器のスコープ外に分類されている。これが、エンドツーエンドの FNR(偽陰性率)の上昇に寄与している。分類器が実際に評価する 160 件のアクション(Tier 3)に限定した場合でも、FNR はなお 70.3% であり、偽陽性率(FPR)は 31.9% にまで上昇する。Tier 2 のカバレッジのギャップが最も顕著なのは、成果物のクリーンアップ(92.9% の FNR)である。ここでは、期待される CLI が利用できない場合、エージェントは自然に状態ファイルの編集へフォールバックする。これらの結果は、検討に値するカバレッジ境界を示している。すなわち、自動モードは危険なアクションがシェルを経由して実行されることを前提とするが、エージェントは分類器が評価しないファイル編集によって、同等の効果を日常的に実現しているということである。
許可ゲートの測定:Claude Codeのオートモードに対するストレステスト評価
arXiv cs.AI / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、AnthropicのClaude Code「オートモード」に対する独立したストレステスト評価を提示しており、これは二段階のトランスクリプト分類器によって危険性のあるツール呼び出しをゲートする。
- 新しいベンチマーク(AmPermBench)を用い、意図的に曖昧な認可シナリオを設定することで、本研究は個別のアクション単位で、253件の状態を変化させる行為をオラクルとなる正解(ground truth)に対して評価する。
- エンドツーエンドの偽陰性率は81.0%であることが判明した。これは本番トラフィックで報告されている17%を大幅に上回っており、システムが「意図は明確だが範囲は不明確(intent-clear but scope-unclear)」というワークロード下では挙動が異なることを示唆する。
- 偽陰性率が高い主因の一つは「Tier 2」(プロジェクト内のファイル編集)における分類器のカバレッジが限定的である点で、状態を変化させる行為のうち36.8%が分類器のスコープ外に該当した。特に、ファイル編集によるアーティファクトのクリーンアップは影響が大きく(FNR 92.9%)なっている。
- 分類器が評価するアクションの部分集合(「Tier 3」)の範囲内であっても、偽陰性率はなお高く(70.3%)、偽陽性率も増加している(31.9%)。これは、カバレッジの不足と、テスト設計におけるより厳格でゲートされた意思決定挙動の両方が示唆される。




