要旨: 自律型の言語モデルエージェントは、ユーザのタスクを完了するために、インストール可能なスキルやツールにますます依存するようになっています。静的なスキル監査は、デプロイ前に能力の表面(capability surface)を明らかにできますが、現在のユーザ要求および実行時コンテキストのもとで、特定の呼び出しが安全でないかどうかまでは判断できません。そこで本研究では、スキル呼び出し監査を、継続的なリスク推定の問題として考察します。すなわち、ユーザ要求、候補スキル、実行時コンテキストが与えられたとき、ハードな介入(hard intervention)が適用される前に、ランキングおよびトリアージを支えるスコアを予測します。私たちは STARS を提案します。STARS は、静的能力の事前分布(static capability prior)、要求に条件付けされた呼び出しリスクモデル(request-conditioned invocation risk model)、そして較正されたリスク融合(calibrated risk-fusion)ポリシーを組み合わせます。この設定を評価するために、SIA-Bench を構築します。SIA-Bench は、3,000件の呼び出し記録からなるベンチマークで、グループに基づくセーフ分割(group-safe splits)、系譜メタデータ(lineage metadata)、実行時コンテキスト、正準的なアクションラベル(canonical action labels)、および導出された連続的リスク目標(derived continuous-risk targets)を備えています。間接的なプロンプトインジェクション攻撃のホールドアウト分割において、較正された融合は 0.439 の高リスク AUPRC(high-risk AUPRC)を達成し、文脈(コンテキスト)に条件付けたスコアラでの 0.405、最も強い静的ベースラインでの 0.380 を上回ります。一方で、文脈に条件付けたスコアラは、期待較正誤差(expected calibration error)0.289 で、より良い較正状態を維持します。ロックされた(locked)分布内テスト分割では、改善幅は小さく、静的事前分布は依然として有用です。したがって得られる主張はより限定的になります。つまり、要求に条件付けた監査は、静的スクリーニングの代替としてよりも、呼び出し時のリスクスコアリングおよびトリアージ層(invocation-time risk-scoring and triage layer)として最も価値がある、という点です。コードは https://github.com/123zgj123/STARS で入手できます。
STARS:エージェントシステムにおける要求条件付き呼び出し安全性のためのスキル起動型監査
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 自律型LLMエージェントが「スキル/ツール」を呼び出す際、静的監査だけでは“その呼び出し”が要求内容と実行コンテキストに照らして危険かを判断できない問題に取り組む研究である。
- STARSは、静的な能力事前分布に加えて「ユーザ要求+実行コンテキスト条件付き」の呼び出しリスク推定モデルと、キャリブレーションされたリスク融合ポリシーを組み合わせ、介入前のランキング/トリアージを可能にする。
- 評価のために、3,000件のスキル呼び出し記録からなるSIA-Benchを構築し、グループ安全分割、ラインエージメタデータ、ランタイム文脈、行動ラベル、連続的リスク目標などを提供する。
- 間接的なプロンプトインジェクション攻撃のオフライン評価では、キャリブレーション融合が高リスクAUPRCで0.439を達成し、複数のベースラインより改善しつつ、期待キャリブレーション誤差でもより良い校正を示した。




