オートメーションベンチ(AutomationBench)

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 既存のソフトウェア自動化ベンチマークは、クロスアプリケーションでの連携、APIの自律的な発見、ポリシー順守を同時に評価できないことが多いです。
  • AutomationBenchは、REST APIを通じた複数の業務システム間ワークフローのオーケストレーション能力をAIエージェントに評価するためのベンチマークとして提案されています。
  • このベンチマークはZapierのような実運用のワークフローパターンを参考にし、営業・マーケ・オペレーション・サポート・財務・人事などの領域にまたがり、無関係で誤解を招くレコードも含まれます。
  • 評価はプログラムで行われ、途中の推論ではなく「正しいデータが正しいシステムに書き込まれたか」というエンドステートのみで採点されます。
  • 最高水準のモデルでもAutomationBenchでのスコアは10%未満であり、現在のエージェント機能と実際のビジネス需要とのギャップが浮き彫りになっています。

概要: ソフトウェア自動化に関する既存のAIベンチマークは、アプリケーション横断の連携、自律的なAPI発見、そしてポリシー遵守をほとんど組み合わせていません。実際のビジネス業務フローでは、この3つすべてが求められます。単一のタスクがCRM、受信トレイ、カレンダー、メッセージングプラットフォームにまたがることがあり、そのためエージェントは適切なエンドポイントを見つけ、ポリシー文書に従い、各システムに正しいデータを書き込む必要があります。そこで本研究では、このギャップを埋めるためにAutomationBenchを導入します。AutomationBenchは、REST APIによるアプリケーション横断ワークフローのオーケストレーションにおいてAIエージェントを評価するためのベンチマークです。Zapierのプラットフォームから得た実際のワークフローパターンに基づき、タスクはSales、Marketing、Operations、Support、Finance、そしてHRの各領域にまたがります。エージェントは関連するエンドポイントを自ら発見し、階層化された業務ルールに従い、無関係で時には誤解を招く記録が存在する環境を切り抜けなければなりません。採点はプログラムによるもので、最終状態のみを評価します。すなわち、正しいデータが適切なシステムに投入されたかどうかです。現在、最良の最先端モデルでもスコアは10%未満です。AutomationBenchは、企業が実際に必要としているエージェント的能力に対して、現在のモデルがどの程度の位置にいるのかを測る、厳しく現実的な指標を提供します。