AI Navigate

データサイエンティストのように考えるエージェントを構築する:再利用可能なツール生成を用いてDABStepで第1位を獲得する方法

Hugging Face Blog / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事は、データサイエンティストのように推論する自律エージェントを、データタスクに取り組むための再利用可能なツールのライブラリを用いて構築する方法について説明します。
  • DABStepで1位を達成するのに貢献したツールを作成・テスト・統合する実践的で再現性のあるワークフローを提示します。
  • 本稿はモジュール化された再利用可能なツールとテンプレートの重要性を強調し、異なるデータサイエンスの課題に対する迅速な反復と一般化を可能にします。
  • エンジニア、プロダクトマネージャー、ビジネス関係者がこれらのパターンを適用してデータ駆動型の意思決定を改善する方法と、チーム全体への影響について論じます。
フォロー

The world of data is vast, but quantitative information is often sparse or unavailable in text form online, presenting a significant challenge for deep research agents. This post shares an architecture, NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer, for building autonomous data analysis agents, developed by the NVIDIA Kaggle Grandmasters (KGMON) LLM Agent Research Team. The NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer project introduces an agent specialized for dataset exploration and analysis, designed to handle the complexities of multi-step reasoning, tool calling, and iterative data analysis. Notably, our approach establishes new state-of-the-art (SOTA) performance on the Data Agent Benchmark for Multi-step Reasoning (DABStep) benchmark, ranking 1st place with a 30x speedup over the claude code baseline.

The success of the multi-phase approach on the challenging DABStep benchmark validates the strategy of separating foundational knowledge building from rapid inference.

動機: データ分析のギャップを埋める

深層研究エージェントは、特にインターネット上のテキスト検索に頼るものは、複雑で多段階のクエリを必要とする構造化された表データを扱う際に不足しています。

私たちの核心的な動機は、以下に優れたエージェントを作ることです:

  • 自動コード生成と実行を通じて分析をより速く反復する。
  • 多段階推論とツール使用を駆使して、複雑な表データの質問を解決する。
  • 意味検索を用いて、大規模な非構造化コンテキストを理解する。
  • 実験の方向性を保つために、可視化を自動的に生成・解釈する。

NVIDIA KGMON(NeMo Agent Toolkit)Data Explorerは、オープンエンドな探索的データ分析、表データのQ&A、予測モデリング、および予測分析を含む機能の提供を目指します。

NVIDIA KGMON(NeMo Agent Toolkit)データエクスプローラー アーキテクチャ

In NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer, we implement different agent loops for different use cases. The architecture leverages the NVIDIA NeMo Agent Toolkit to drive these loops, utilizing tools designed specifically from a data scientist's perspective. For open-ended exploratory data analysis, the system pairs a ReAct agent with a Jupyter Notebook tool, allowing for continuous, bi-directional interaction. Alternatively, for multi-step rule-based tabular data QA, the architecture utilizes a Tool Calling Agent. This agent interacts with a distinct, multi-part suite of specialized tools to accomplish its structured tasks: a stateful Python interpreter, a retriever, and a file structure detector.

スクリーンショット 2026-03-09 21:25:43

Open-ended Exploration and Tabular Data QA

現在、NVIDIA KGMON(NeMo Agent Toolkit)データエクスプローラーは、2つの主なアプリケーションに焦点を当てています。

1. オープンエンド探索的データ分析(EDA)

下の図は、ReActエージェントによって推進されるオープンエンド探索的データ分析のアーキテクチャを示しています。ワークフローは、ユーザーがデータセットをマウントし、ReActエージェントに質問または指示を送信することから始まり、これらの入力を特定のツール呼び出しへ翻訳します。これらの呼び出しは、ノートブック操作ツール群へ送られ、ノートブックの作成、コードの追加、セルの実行といった標準的な操作を実行します。ツールがコマンドを実行すると、生データ出力はツール出力ハンドラへ流れ込みます。ハンドラの重要な機能の一つは、Vision-Language Model(VLM)との連携です。ツール出力に視覚的なグラフが含まれている場合、ハンドラはそれをVLMへ送信して、グラフの美学と情報量を向上させるテキスト描述と提案を生成します。ハンドラは次に、この視覚的グラフをこのテキストベースの分析で置き換え、処理済みのツール出力をReActエージェントに返して、ユーザーに対して情報に基づいた回答を作成できるようにします。

スクリーンショット 2026-03-09 21:26:39

2. 多段階ルールベースの表データQA

これは、表データセットに対して多段階の推論とツール呼び出しを必要とする難問に対処します。我々は、金融支払セクターに特化した450の総タスクから成る「多段階推論のデータエージェントベンチマーク」(DABStep)に焦点を当てています。ベンチマークプロセスは、3つの主要コンポーネントに構造化されています:

スクリーンショット 2026-03-09 21:27:49

ContextとQueryには、CSVやJSONファイルのような質問と異種データソース、ドメインロジックとルールを詳述したマークダウンマニュアルも併記されます。ベンチマークタスクは、作業負荷を Easy Tasks(16%)と Hard Tasks(84%)に分類します。Easy Tasks は基本的な単一データセットのクエリで、Hard Tasks は複雑で多段階のツール追加推論を要します。これらの難しいタスクは、ドキュメントの読み込み、SQLやPandasなどのコードの生成、データの照合を含み、ウェブ検索はほとんど有用な支援を提供しません。最後に、評価フェーズは厳格なフォーマット要件を伴う正確なテキスト一致で成功を測定します。agent_answerとreasoning_traceの両方を含むJSONL出力が期待されます。

Cracking DABStep: 多段階アプローチ

最先端(SOTA)結果を DATStep で達成するには、重い処理を高速な実行から分離する必要があります。システムは三つの独立したフェーズに分かれています:学習フェーズではエージェントが一般的なスキルとグラウンドトゥルースデータを用いて再利用可能で専門的なツールを作成する;推論フェーズではこれらのツールを適用して新しい問いを迅速に解く;オフラインの反省フェーズでは出力を見直してより深い洞察を生み出します。これは人間のデータサイエンティストがどのように作業するかを模倣しており、将来のタスクが効率的かつ拡張可能になるよう、初期段階で大きな労力を費やして堅牢なツールキットを構築します。

スクリーンショット 2026-03-09 21:29:20

Phase 1: 学習ループ

学習フェーズでは、状態を持つ Python インタプリタ、bash ツール、ファイル構造検出ツールを含む、ツールのフルアーセナルを備えた大規模モデルを、マルチパスループで展開します。代表的なタスクのバッチ(例:タスク1〜10)に取り組み、それらをグラウンドトゥルースの回答と照合して検証することで、エージェントはデータセットの総合的なメンタルモデルを構築します。次に、これらの個別の Python スクリプトを一つのマスターソリューションに統合し、最終的には再利用可能な関数の高効率なライブラリ(helper.py)と、少数ショットの例を簡潔にまとめ、ヘルパー関数が開発分割(トレーニングセット)の質問を解く際にどのように使われるかを示します。

スクリーンショット 2026-03-09 21:31:04

相互に関連するタスクの認識と全体的なサブソリューションの最適化

このアプローチを推進する核心的な洞察は、複雑なデータの問いは孤立して存在することがほとんどない、ということです。加盟店の手数料の例で示されるように、さまざまなタスクはしばしば同じ基礎データ操作を共有しています。例えば、特定の月の特定の取引手数料を算出する(タスク2)は、タスク1で適用可能な手数料IDを列挙するだけ、という最初の手順と全く同じものを必要とします。この重複を認識してマッピングすることが、モジュラーでDRY(Don't Repeat Yourself)なシステムを構築する鍵です。

スクリーンショット 2026-03-09 21:32:07

孤立して壊れやすいスクリプトを新しい質問ごとに書く代わりに、エージェントは最も堅牢なロジックを積極的に探します。もし関数の「Version 1」がタスク1には完璧に機能しても、タスク2のわずかに異なる制約に適用すると失敗する場合、エージェントはその欠陥を認識します。複数の相互に関連するタスクのグラウンドトゥルースに対して、Pythonインタプリタを介して候補関数を積極的にテストすることで、エージェントは全バッチを通じてうまく一般化する「Version 2」を反復的に発見します。

リファクタリングとパッケージ化

スクリーンショット 2026-03-09 21:34:09

最適で汎用的なロジックが見つかったら、エージェントは重く独立したスクリプトを、清潔で統一されたアーキテクチャへリファクタリングします。複雑なデータ抽出と計算手順は、中央の helper.py ライブラリにまとめられます。その結果、特定の質問に答えるために必要な実際のコードは劇的に縮小します。最終的なタスク解決策は、長く複雑なスクリプトから、ヘルパーライブラリから適切なツールをインポートして実行するだけの軽量な指示へと変化します。

フェーズ 2: 高速で軽量な推論

\"Screenshot

基盤となるコードが完成したことで、推論フェーズは単一パスのループを実行するより小さく高速なモデル(例: Haiku 4.5)へと移行します。複雑なドメインロジックはすでに helper.py に安全に格納されているため、推論エージェントは作業をこなすのに基本的な Python インタプリタだけを必要とします。トークンコストと待機時間を絶対最小に抑えるため、コンテキストウィンドウは積極的に絞り込まれます:エージェントには関数シグネチャのみ(基になるコードは含まれません)と、簡素化されたシステムプロンプトを併せて提供することで、未見のタスクを解決するために事前構築されたツールを効率的に調整・指揮できるようにします。

フェーズ 3: 監督なしのオフラインリフレクション

\"Screenshot

高品質を保ちつつライブ推論ループをボトルネックにしないよう、このフェーズでは重要な品質管理を完全にオフラインへ移します。これは、二つの強力なLLM評価手法—リフレクションとグループ整合性—に依存し、教師なしのレビュワーとして機能する重厚なモデル(Opus や Sonnet 4.6 のような)により推進されます。

リフレクション は、モデルがエージェントの生成したコードと推論を見直して性能を監査するプロセスです。難解な質問を投げかけます:エージェントは helper.py ライブラリを効果的に活用したか? プロンプトを忠実に守ったか? コードに明らかな間違いはないか?

グループ整合性 は、類似するテスト問題のグループ間で複数の候補解を分析し、エージェントの論理が安定していることを確認する作業です。エージェントが同じタイプの質問を矛盾する方法で解く場合、オフラインのモデルが不一致を検出し、どのアプローチが実際に正しいかを推論します。これらの計算集約的なチェックをオフラインに移すことで、推論フェーズの速度を犠牲にすることなくデータを深く分析できます。

ループを閉じる: より高速な推論のための洞察を注入

このオフラインリフレクションで生成された洞察は、分析だけのためではなく、学習ループを閉じるためにアーキテクチャへ積極的にフィードバックされます。テストデータから重要なパターン、エッジケース、潜在的な落とし穴を抽出することにより、重いモデルがこれらの学びを統合し、将来の推論フェーズのシステムプロンプトに直接注入します。軽量な推論エージェントはすでに起動時プロンプトにこれらの事前計算済みの洞察を保持しているため、遅く計算コストの高いオンラインリフレクションや整合性チェックを完全に排除します。その結果、推論フェーズは非常に高速でトークン効率が高く、オフラインでの各レビューごとに精度が継続的に向上します。

結果

簡単 難易度 実行時間/タスク コード長
NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer + haiku 4.5 87.5 89.95 20s 1870
claude code + opus 4.5 90.2 66.93 10min 5011
DataPilot from AntGroup 86.11 87.57 不明 不明
DS-STAR from Google AI 87.5 45.24 不明 不明

このアーキテクチャを検証するため、3フェーズの \"NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer\" アプローチ(推論には軽量の Haiku 4.5 を使用)を、標準的なベースラインである \"Claude Code\" と比較してベンチマークしました。重厚な Opus 4.5 を使用し、最初から全タスクを解こうとします。結果は、われわれの方法論の巨大な効率向上を浮き彫りにしています。推論エージェントは事前構築済みの helper.py ライブラリに依存しているため、タスクを凄まじく高速で解き、タスクあたりわずか 20 秒で高度に簡潔な 1,870 文字を生成します。対照的に、ゼロから解くアプローチはタスクあたり10分もの時間がかかり、コード長が5,011文字へ膨張します。最も感嘆すべきは、この30倍のスピードアップが複雑な推論を損なわないことです。重い Opus モデルは「簡単」なタスクでわずかに上回った(90.2 対 87.5)ものの、私たちのアプローチは「難しい」タスクを完全に支配し、基準の 66.93 に対して 89.95 を記録しました。これは、事前学習とコード抽象化に投資する時間が、より小さく高速なモデルにも複雑で多段階の問題を解決する力を与えることを示しています。

このパフォーマンスにより、公式の dabstep リーダーボードで私たちのアーキテクチャが1位を獲得しました。NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer アプローチは、複雑な問題において AntGroup の DataPilot および Google AI の DS-STAR を著しく上回りました。「Hard」タスクのスコアが 89.95 となり、私たちのシステムは DataPilot (87.57) を上回り、DS-STAR のスコア (45.24) をほぼ倍増しました。ベンチマークの 84% が難易度の高いタスクで構成されていることを考えると、このカテゴリでの私たちの支配は、全体として最高のソリューションである地位を直接確固たるものにします。これらの結果は、私たちの3段階の方法論を、効率的で厳密な表形式推論の現状最先端として確立します。

結論: データ集約型研究の新しいパラダイム

NVIDIA NeMo Agent Toolkit をベースに、Data Explorer エージェントは、構造化された表形式データの自動データ分析において大きな前進を示す存在です。柔軟なエージェント・ループ——オープンエンドの探索的データ分析のための ReAct ループと、規則ベースの表データ QA のためのマルチフェーズ・システム——を活用することで、エージェントは複雑で多段階の推論タスクを処理するのに特有の位置にあります。難易度の高い DABStep ベンチマークでのマルチフェーズ手法の成功、特に再利用可能で汎用的な関数を生成する積極的学習ループは、基礎知識の構築と迅速な推論を分離する戦略を検証します。Data Explorer は、単なるクエリ応答を超えて、経験豊富なデータサイエンティストの運用ワークフローを体現し、スケーラブルで高品質な洞察を提供し、LLM 駆動のエージェントによって推進されるデータ集約型研究の新しいパラダイムを確立します。

自分自身のデータ探索エージェントを構築する準備はできましたか?NVIDIA Launchable から始めましょう。例は近日公開予定です!

コミュニティ

\t\t\t\tコメント

· 新規登録 または ログイン してコメントする