AgentDS技術レポート：ドメイン特化データサイエンスにおける人間とAIの協働の未来をベンチマークする

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

AgentDSは、6つの産業にわたるドメイン特化データサイエンスにおけるAIエージェントと人間-AI協働を評価するベンチマークと競技を導入します。
オープン競技には29チームと80名の参加者が参加し、AIのみのベースラインと人間-AI協働のアプローチの体系的な比較を可能にしました。
結果は、現在のAIエージェントがドメイン特化の推論に苦戦しており、AIのみのベースラインは人間の参加者の中央値と同程度か、それを下回る程度のパフォーマンスです。
驚くべきことに、最も優れた結果は人間-AI協働から生まれ、完全自律型AIだけではドメイン特化データサイエンスにはまだ不十分であることを示しています。
本プロジェクトは、継続的なベンチマークのためにHuggingFace上のオープンソースデータセットと公式ウェブサイト（agentds.org）を提供します。

要約:
データサイエンスは、複雑なデータを実用的な洞察へと変換するうえで、数多くの領域において重要な役割を果たします。最近の大規模言語モデル（LLMs）と人工知能（AI）エージェントの発展は、データサイエンスのワークフローを大幅に自動化しています。しかし、AIエージェントがドメイン特化のデータサイエンス課題において人間の専門家の性能にどの程度匹敵し得るのか、またどの点で人間の専門知識が依然として優位性を生むのかは、まだ不確かです。我々は、ドメイン特化型データサイエンスにおけるAIエージェントと人間とAIの協働のパフォーマンスを評価するためのベンチマークおよび競技であるAgentDSを紹介します。AgentDSは、商業、食品製造、医療、保険、製造業、及び小売銀行の6産業にわたる17の課題で構成されています。29チーム、80名の参加者を対象とした公開競技を実施し、人間とAIの協働アプローチとAIのみのベースラインとの体系的な比較を可能にしました。我々の結果は、現在のAIエージェントがドメイン特化型の推論に苦戦していることを示しています。AIのみのベースラインは競技参加者の中央値付近、あるいはそれ以下のパフォーマンスである一方で、最も強力なソリューションは人間とAIの協働から生まれます。これらの知見は、AIによる完全自動化の物語に異議を唱え、データサイエンスにおける人間の専門知識の持続的な重要性を強調しつつ、次世代AIの方向性を示しています。AgentDSの公式ウェブサイトはこちら: https://agentds.org/、オープンソースデータセットはこちら: https://huggingface.co/datasets/lainmn/AgentDS 。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

AgentDS技術レポート：ドメイン特化データサイエンスにおける人間とAIの協働の未来をベンチマークする

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer