要約:
データサイエンスは、複雑なデータを実用的な洞察へと変換するうえで、数多くの領域において重要な役割を果たします。最近の大規模言語モデル(LLMs)と人工知能(AI)エージェントの発展は、データサイエンスのワークフローを大幅に自動化しています。しかし、AIエージェントがドメイン特化のデータサイエンス課題において人間の専門家の性能にどの程度匹敵し得るのか、またどの点で人間の専門知識が依然として優位性を生むのかは、まだ不確かです。我々は、ドメイン特化型データサイエンスにおけるAIエージェントと人間とAIの協働のパフォーマンスを評価するためのベンチマークおよび競技であるAgentDSを紹介します。AgentDSは、商業、食品製造、医療、保険、製造業、及び小売銀行の6産業にわたる17の課題で構成されています。29チーム、80名の参加者を対象とした公開競技を実施し、人間とAIの協働アプローチとAIのみのベースラインとの体系的な比較を可能にしました。我々の結果は、現在のAIエージェントがドメイン特化型の推論に苦戦していることを示しています。AIのみのベースラインは競技参加者の中央値付近、あるいはそれ以下のパフォーマンスである一方で、最も強力なソリューションは人間とAIの協働から生まれます。これらの知見は、AIによる完全自動化の物語に異議を唱え、データサイエンスにおける人間の専門知識の持続的な重要性を強調しつつ、次世代AIの方向性を示しています。AgentDSの公式ウェブサイトはこちら: https://agentds.org/、オープンソースデータセットはこちら: https://huggingface.co/datasets/lainmn/AgentDS 。
AgentDS技術レポート:ドメイン特化データサイエンスにおける人間とAIの協働の未来をベンチマークする
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- AgentDSは、6つの産業にわたるドメイン特化データサイエンスにおけるAIエージェントと人間-AI協働を評価するベンチマークと競技を導入します。
- オープン競技には29チームと80名の参加者が参加し、AIのみのベースラインと人間-AI協働のアプローチの体系的な比較を可能にしました。
- 結果は、現在のAIエージェントがドメイン特化の推論に苦戦しており、AIのみのベースラインは人間の参加者の中央値と同程度か、それを下回る程度のパフォーマンスです。
- 驚くべきことに、最も優れた結果は人間-AI協働から生まれ、完全自律型AIだけではドメイン特化データサイエンスにはまだ不十分であることを示しています。
- 本プロジェクトは、継続的なベンチマークのためにHuggingFace上のオープンソースデータセットと公式ウェブサイト(agentds.org)を提供します。