HINTBench: Horizon-agent 内在的非攻撃軌道ベンチマーク

arXiv cs.LG / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントの安全性評価が、外部から誘発される攻撃に過度に重点を置いている一方で、エージェントは潜在的な内在的な長期リスクによって良性の条件下でも失敗しうると主張する。
  • それに基づき、HINTBenchを導入する。これは、各軌道あたり約33ステップから成る注釈付きエージェント軌道629件(危険:523件、安全:106件)を含み、非攻撃の内在的リスク監査のために設計されている。
  • HINTBenchは3つの評価タスクをサポートする。すなわち、軌道レベルでのリスク検出、リスクステップの特定(ローカライズ)、内在的な失敗タイプの同定であり、ラベルは5つの制約によるタクソノミーに整理されている。
  • 実験結果は、現在のLLMベースのエージェントに大きな能力ギャップがあることを示す。強力なモデルは軌道レベルでの検出では良好だが、危険なステップを特定するためのStrict-F1は35未満にまで低下する。
  • 本研究は、既存のガードモデルがこの内在的(非攻撃)リスク設定にうまく転移できないことを明らかにし、内在的リスク監査をエージェント安全性研究における未解決の課題として位置付ける。

\emph{固有}リスクという観点から、この補完的だが十分に掘り下げられていない状況を扱います。固有リスクでは、固有の失敗が潜在的なまま残り、長期ホライズンの実行を通じて伝播し、やがて高い帰結を伴う結果につながります。この状況を評価するために、
\emph{非攻撃の固有リスク監査}を提案し、
\textbf{HINTBench}を提示します。HINTBenchは629のエージェント軌道(523が危険、106が安全;平均33ステップ)からなるベンチマークであり、3つのタスクを支援します:リスク検出、リスク・ステップの局在化、固有の失敗タイプの同定です。注釈は統一された5つの制約タクソノミーの下に整理されています。実験の結果、重要な能力ギャップが明らかになりました。強力なLLMは軌道レベルでのリスク検出では良好に機能する一方、リスク・ステップの局在化では性能が35 Strict-F1未満まで低下し、さらにきめ細かな失敗診断はより一層困難であることが示されました。既存のガードモデルは、この設定への転移がうまくいきません。これらの知見により、固有リスク監査がエージェント安全性におけるオープンな課題であることが示されます。