AI Navigate

EnterpriseOps-Gym: 企業環境における状態を持つエージェント計画とツール使用の環境と評価

arXiv cs.AI / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • EnterpriseOps-Gymは、エージェント的計画を評価する目的で、164のデータベーステーブルと512の機能ツールを備えたコンテナ化されたサンドボックスを導入し、実世界の企業検索における摩擦を模倣します。
  • カスタマーサービス、HR、ITを含む8つの重要な業界分野を対象に、専門家が厳選した1,150のタスクを評価し、長期的な計画を継続的な状態変化と厳格なアクセス制御の中で検証します。
  • 14の最先端モデルのベンチマークでは、Claude Opus 4.5がわずか37.4%の成功率にとどまり、現在のエンタープライズ対応エージェント能力の重大なギャップを露呈します。
  • この研究は、オラクル人間計画を提供することで性能が14〜35ポイント改善されることを示し、戦略的推論を主要なボトルネックとして特定し、実行不能なタスクの受容率が高いことを指摘します(ベストモデル53.9%)。
  • これにより、現在のエージェントは自律的な企業展開にはまだ準備ができていないことが強調されます。
  • 著者らはEnterpriseOps-Gymを、専門的なワークフローにおけるエージェント的計画の堅牢性を高めるための具体的なテストベッドとして位置づけています。
アナウンス種別: new 要約: 大規模言語モデルは、受動的な情報提供者から複雑なワークフローを想定した能動的エージェントへと転換している。しかし、エンタープライズにおける信頼できるAIワーカーとしての展開は、専門的な環境の複雑さを捉えきれないベンチマークによって停滞している。特に、継続的な状態変化と厳格なアクセスプロトコルの中での長期的視野を要する計画の必要性を捉えられていない。 本研究では、実務的なエンタープライズ環境におけるエージェント計画を評価するよう設計されたベンチマーク、EnterpriseOps-Gym を紹介します。具体的には、EnterpriseOps-Gym は、実世界の検索の摩擦を模倣するため、164個のデータベーステーブルと512個の機能ツールを備えたコンテナ化されたサンドボックスを特徴とします。 この環境下で、エージェントは、顧客サービス、人事、ITを含む8つのミッション・クリティカルな垂直領域に跨る1,150の専門家によりキュレーションされたタスクで評価されます。14個の最前線モデルの評価は、最先端モデルの顕著な限界を浮き彫りにします。最も高性能の Claude Opus 4.5 はわずか37.4%の成功率にとどまる。 さらに分析すると、オラクル的人間の計画を提供することで性能が14〜35ポイント改善され、戦略的推論が主要なボトルネックであることを特定している。加えて、エージェントは実現不可能なタスクを拒否できないことが頻繁にあり(最良モデルは53.9%に達する)、予期せぬおよび潜在的に有害な副作用を招く。私たちの所見は、現状のエージェントは自律的なエンタープライズ展開の準備がまだ整っていないことを強調している。より広く見れば、EnterpriseOps-Gym は、専門的なワークフローにおけるエージェント主導の計画の頑健性を高めるための具体的なテストベッドを提供します。