D3-Gym:データ駆動型発見のための現実世界で検証可能な環境の構築
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- D3-Gymは、科学的データ駆動型発見における「実世界の科学タスクを表す検証可能な環境がない」というギャップを埋めるために提案された。
- データセットには、4つの分野にまたがる239の実在する科学リポジトリから集めた565のタスクが含まれ、それぞれに自然言語の指示、依存関係が事前導入された実行可能環境、入力データと成果物プレビュー、参照コード、そして自動生成された評価スクリプトが付属している。
- 検証の質については、合成評価スクリプトが人手でアノテーションしたゴールド標準と87.5%の一致率を達成し、ドメイン固有の評価ロジックとも強く整合していると報告されている。
- D3-Gymの軌跡を用いた学習により、Qwen3の複数サイズでScienceAgentBench上の性能が一貫して大きく向上し、特にQwen3-32Bは7.8ポイントの絶対的な改善と、強力なプロプライエタリモデルとのギャップ縮小が示されている。
- 環境、作成ワークフロー、軌跡、モデルはすべてGitHubで公開されており、再利用やさらなる研究に使える。




