D3-Gym:データ駆動型発見のための現実世界で検証可能な環境の構築

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • D3-Gymは、科学的データ駆動型発見における「実世界の科学タスクを表す検証可能な環境がない」というギャップを埋めるために提案された。
  • データセットには、4つの分野にまたがる239の実在する科学リポジトリから集めた565のタスクが含まれ、それぞれに自然言語の指示、依存関係が事前導入された実行可能環境、入力データと成果物プレビュー、参照コード、そして自動生成された評価スクリプトが付属している。
  • 検証の質については、合成評価スクリプトが人手でアノテーションしたゴールド標準と87.5%の一致率を達成し、ドメイン固有の評価ロジックとも強く整合していると報告されている。
  • D3-Gymの軌跡を用いた学習により、Qwen3の複数サイズでScienceAgentBench上の性能が一貫して大きく向上し、特にQwen3-32Bは7.8ポイントの絶対的な改善と、強力なプロプライエタリモデルとのギャップ縮小が示されている。
  • 環境、作成ワークフロー、軌跡、モデルはすべてGitHubで公開されており、再利用やさらなる研究に使える。

Abstract

言語モデルやエージェントによる科学データ駆動型の発見において近年進展が見られるものの、現実世界の科学タスクを表す検証可能な環境の不在が、それらの能力向上を妨げています。このギャップを埋めるために、検証可能な環境を備えた科学データ駆動型発見のための、最初の自動構築データセットであるD3-Gymを導入します。D3-Gymは、4つの分野にまたがる239の実在する科学リポジトリから収集した565のタスクから成り、各タスクには、(2) 自然言語による指示、事前に依存関係がインストールされた実行可能な環境、入力データセットおよびアーティファクトのプレビュー、参照となるコード解答、そして自動合成された評価スクリプトが備わっています。D3-Gymにおける検証シグナルの品質について厳密に評価した結果、提案する評価スクリプトは、人手で注釈付けされたゴールド標準との一致率87.5%を達成し、かつドメイン固有の評価ロジックにおいて強い整合性を示しており、科学的妥当性が裏づけられます。さらに、D3-Gymからサンプリングした軌跡(トラジェクトリ)で学習すると、ScienceAgentBenchにおいて、サイズの異なる複数のQwen3モデルに対して一貫した実質的な改善が得られ、Qwen3-32Bは絶対値で7.8ポイント向上し、強力な独自モデルとの差を大幅に縮めます。すべてのD3-Gymアーティファクト(環境、作成ワークフロー、軌跡、モデル)は https://github.com/OSU-NLP-Group/D3-Gym で入手できます。