STARS: Skill-Triggered Audit for Request-Conditioned Invocation Safety in Agent Systems
arXiv cs.AI / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 自律型LLMエージェントが「スキル/ツール」を呼び出す際、静的監査だけでは“その呼び出し”が要求内容と実行コンテキストに照らして危険かを判断できない問題に取り組む研究である。
- STARSは、静的な能力事前分布に加えて「ユーザ要求+実行コンテキスト条件付き」の呼び出しリスク推定モデルと、キャリブレーションされたリスク融合ポリシーを組み合わせ、介入前のランキング/トリアージを可能にする。
- 評価のために、3,000件のスキル呼び出し記録からなるSIA-Benchを構築し、グループ安全分割、ラインエージメタデータ、ランタイム文脈、行動ラベル、連続的リスク目標などを提供する。
- 間接的なプロンプトインジェクション攻撃のオフライン評価では、キャリブレーション融合が高リスクAUPRCで0.439を達成し、複数のベースラインより改善しつつ、期待キャリブレーション誤差でもより良い校正を示した。
Related Articles

As China’s biotech firms shift gears, can AI floor the accelerator?
SCMP Tech

Why AI Teams Are Standardizing on a Multi-Model Gateway
Dev.to

a claude code/codex plugin to run autoresearch on your repository
Dev.to

AI startup claims to automate app making but actually just uses humans
Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to