DataClaw：探索的な実世界データ分析のためのプロセス指向エージェントベンチマーク

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、未踏領域の環境やノイズの多い実世界データにおける探索的データ分析で、自律エージェントを評価するためのプロセス指向ベンチマーク「DataClaw」を提案しています。
DataClawには、エンタープライズ、産業、政策の各ドメインにまたがる約206万件の記録が含まれ、実環境に近いようにデータノイズをそのまま保持しています。
ベンチマークにはシンクタンクのコンサルティング場面を元にしたクロスドメイン課題492件が用意されており、中間マイルストーンの注釈によって最終回答の正確さだけでなく推論プロセスを評価できます。
8つの先進的なLLMを用いた実験では、この設定でエージェントはまだ信頼性に欠け、7モデルが総合精度50%未満でした。さらにプロセス分析により、誤答の裏での部分的な進展や、モデルごとの探索戦略の違いが示されています。
全体としてDataClawは、データ制約が比較的少ない診断用テストベッドとして、自律型データ分析エージェントの能力境界を探ることを目的としています。

要旨: 自律型データ分析エージェントの評価では、未開拓のデータ環境下で探索的な分析を実行できる能力を検証する必要がある。しかし、既存の多くのベンチマークは、事前にガイドされたデータ設定における最終回答の正確性を重視しており、推論プロセスの評価を行うための支援は限定的である。我々は、探索的な実世界データ分析のためのプロセス指向ベンチマークであるDataClawを導入する。DataClawには、企業・産業・政策の各ドメインにまたがる、約206万件の実世界レコードが含まれており、ネイティブのデータノイズは保持されている。さらに、シンクタンクのコンサルティングのシナリオから導出した492のドメイン横断タスクを含み、それぞれにプロセスレベルの評価のための中間マイルストーンが注釈として付与されている。これらの注釈により、DataClawは、エージェントがどこまで進んだか、そして推論がどこで破綻したのかを測定できる。8つの先進的なLLMを用いた実験では、この設定において現在のエージェントは信頼できる水準から大きく離れており、7つのモデルが総合精度50%未満を達成した。プロセス分析はさらに、誤った回答の背後に隠れている部分的な進捗や、モデル間で異なる探索戦略を明らかにする。全体として、DataClawは、自律型データ分析エージェントの能力境界を探るための、データ制約が比較的少ない診断用テストベッドを提供する。