広告

ニアミス:エージェント型ワークフローにおける潜在的なポリシー失敗の検出

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースのエージェント型ワークフローを、最終状態のみを正解(ground truth)と照合して評価すると、必要なポリシーチェックが迂回されたにもかかわらず結果が正しく見えてしまう、微妙な失敗モードを見逃し得ると主張する。
  • エージェントの会話トレースを分析し、ツール呼び出しの意思決定が十分に情報を得たものだったかに焦点を当てることで、「ニアミス」(潜在的なポリシー失敗)を検出するための指標を提案する。
  • 本手法は、自然言語のポリシーを実行可能なガードコードへ変換するToolGuardを土台にしており、エージェントの中間的な意思決定プロセスの質を評価する。
  • 複数の公開および商用(proprietary)のLLMエージェントに対して、τ²検証済みのAirlinesベンチマークで実験を行ったところ、最終状態が正しいにもかかわらず、ツール呼び出しを改変(mutating)するようなケースを含む軌跡のうち約8〜17%で潜在的な失敗が見つかった。
  • 著者らは、現在の評価手法には盲点があると結論づけ、アウトカムそのものだけでなく、結果に至るまでの軌跡とコンプライアンスの両方を評価する指標の必要性を訴えている。

Abstract

業務プロセス自動化のためのエージェント型システムは、多くの場合、システム状態への条件付き更新を統制するポリシーへの準拠を必要とします。LLMベースのエージェント型ワークフローにおけるポリシー準拠の評価は、典型的には、最終的なシステム状態をあらかじめ定義された正解(ground truth)と比較することで行われます。このアプローチは明示的なポリシー違反を検出できますが、エージェントが必要なポリシーチェックを迂回しているにもかかわらず、好ましい状況によって正しい結果に到達してしまう、より微妙な種類の問題を見落とす可能性があります。我々はこのようなケースを extit{near-misses}(ニアミス)または extit{latent failures}(潜在的失敗)と呼びます。本研究では、エージェント会話のトレースにおける潜在的ポリシー失敗を検出するための新しい指標を提案します。自然言語のポリシーを実行可能なガードコードへ変換する ToolGuard フレームワークに基づき、我々の手法はエージェントの軌跡を解析し、エージェントのツール呼び出しの意思決定が十分に情報に基づいていたかどうかを判定します。 我々は、複数の近年のオープンおよびプロプライエタリな LLM をエージェントとして用いた au^2-verified Airlines ベンチマークで提案手法を評価します。結果として、最終的な結果が期待される正解の状態と一致している場合であっても、状態を変化させるツール呼び出しを含む軌跡のうち 8-17% で潜在的失敗が発生していることが分かりました。これらの知見は、現在の評価手法における盲点を明らかにするとともに、最終結果だけでなく、それに至るまでの意思決定プロセスも評価する指標の必要性を示しています。

広告