Abstract
業務プロセス自動化のためのエージェント型システムは、多くの場合、システム状態への条件付き更新を統制するポリシーへの準拠を必要とします。LLMベースのエージェント型ワークフローにおけるポリシー準拠の評価は、典型的には、最終的なシステム状態をあらかじめ定義された正解(ground truth)と比較することで行われます。このアプローチは明示的なポリシー違反を検出できますが、エージェントが必要なポリシーチェックを迂回しているにもかかわらず、好ましい状況によって正しい結果に到達してしまう、より微妙な種類の問題を見落とす可能性があります。我々はこのようなケースを extit{near-misses}(ニアミス)または extit{latent failures}(潜在的失敗)と呼びます。本研究では、エージェント会話のトレースにおける潜在的ポリシー失敗を検出するための新しい指標を提案します。自然言語のポリシーを実行可能なガードコードへ変換する ToolGuard フレームワークに基づき、我々の手法はエージェントの軌跡を解析し、エージェントのツール呼び出しの意思決定が十分に情報に基づいていたかどうかを判定します。
我々は、複数の近年のオープンおよびプロプライエタリな LLM をエージェントとして用いた au^2-verified Airlines ベンチマークで提案手法を評価します。結果として、最終的な結果が期待される正解の状態と一致している場合であっても、状態を変化させるツール呼び出しを含む軌跡のうち 8-17% で潜在的失敗が発生していることが分かりました。これらの知見は、現在の評価手法における盲点を明らかにするとともに、最終結果だけでなく、それに至るまでの意思決定プロセスも評価する指標の必要性を示しています。