AgentFuelを用いた時系列データ分析エージェントの表現力豊かでカスタマイズ可能な評価の生成

arXiv cs.AI / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

要点

  • AgentFuelは、ドメイン専門家が時系列データ分析エージェント向けの表現力豊かでドメイン特化の評価を迅速に作成できるフレームワークとして紹介される。
  • 本研究は、既存の評価における表現力のギャップを特定し、ドメインに特化したデータセットの欠如やドメイン固有のクエリタイプを含む点を挙げ、エージェントが状態依存のクエリやインシデント固有のクエリでしばしば失敗することを指摘している。
  • 6つのデータ分析エージェントを対象としたベンチマークにより、改善の重要な方向性が明らかになり、AgentFuelが現行のフレームワークの弱点を露呈させることを示している。
  • ベンチマークは公開されており、Hugging Faceで利用可能で、AgentFuelの使用がエージェントの性能向上につながるという逸話的な証拠がある(例:GEPA)。

要約: さまざまな分野(例:IoT、可観測性、通信、サイバーセキュリティ)において、ユーザーがデータと対話して洞察を抽出できる会話型データ分析エージェントの採用が進んでいます。こうしたデータ分析エージェントは時系列データモデルで動作します。例として、センサーからの測定値や、製品分析におけるユーザーのクリックや操作を監視するイベントが挙げられます。私たちは、ドメイン固有のデータとクエリタイプに対して、オープンソースと商用の両方を含む6つの人気データ分析エージェントを評価し、それらが状態を持つクエリやインシデント固有のクエリに対して失敗することを突き止めました。既存の評価には、表現力のギャップが2つあることを観察しました:ドメインに特化したデータセットとドメイン固有のクエリタイプです。こうしたドメインの実務家がこの時系列データエージェントに対してカスタマイズされた表現力豊かな評価を生成できるように、AgentFuelを提示します。AgentFuelは、専門家がエンドツーエンドの機能テストを実行するためのカスタマイズされた評価を迅速に作成するのを支援します。AgentFuelのベンチマークは、既存のデータエージェントフレームワークの改善すべき主要な方向性を明らかにします。また、AgentFuelの利用によってエージェントの性能が向上するという逸話的な証拠も示します(例:GEPAを用いた場合)。AgentFuelのベンチマークは https://huggingface.co/datasets/RockfishData/TimeSeriesAgentEvals で利用可能です。