daVinci-Env: 大規模な OpenSWE 環境の合成

arXiv cs.CL / 2026/3/16

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

OpenSWE は、Python での SWE エージェントの訓練における、完全に透明性が高い最大級のフレームワークとして紹介され、スケールでの再現性のある実験を可能にします。
12,800 リポジトリにまたがる 45,320 の実行可能な Docker 環境を含み、すべての Dockerfile、評価スクリプト、インフラストラクチャをオープンソース化しています。
64 ノードの分散型マルチエージェント合成パイプラインが、リポジトリ探索、Dockerfile の作成、評価スクリプトの生成、テスト分析を自動化します。
解けるものかつ挑戦的な環境のみを保持する品質重視のフィルタリングを適用し、総額約 1.47 百万ドルを費やしておよそ 9,000 の品質保証付き環境と約 13,000 の厳選された軌跡を作成します。
実証的な結果として、OpenSWE-32B/72B は SWE-bench Verified で 62.4% および 66.0% を達成し、Qwen2.5 系の SOTA に位置付く。数学・科学のベンチマークでドメイン外の顕著な向上を示し、事実のリコールを損なうことはありませんでした。

要旨: 能力のあるソフトウェアエンジニアリング（SWE）エージェントを訓練するには、反復的なコード編集、テスト実行、解法の洗練のための動的なフィードバックループを提供する、大規模で実行可能かつ検証可能な環境が必要です。しかし、既存のオープンソースデータセットは規模とリポジトリの多様性が限られており、産業界のソリューションは公開されていないインフラを伴い不透明であり、多くの学術研究グループにとって大きな障壁となっています。私たちは Python での SWE エージェント訓練のための、完全に透明性の高い最大規模のフレームワーク OpenSWE を提示します。これは、12,800を超えるリポジトリに及ぶ45,320個の実行可能な Docker 環境で構成され、すべての Dockerfile、評価スクリプト、インフラストラクチャが再現性のために完全にオープンソース化されています。OpenSWE は、64ノードの分散クラスターに展開されたマルチエージェント合成パイプラインを介して構築され、リポジトリ探索、Dockerfile の作成、評価スクリプトの生成、反復的なテスト分析を自動化します。規模を超えて、各環境の固有の難易度を特徴づける品質重視のフィルタリング・パイプラインを提案します。解けないものや十分に難しくないものを除外し、学習効率を最大化するものだけを保持します。環境構築に $891K、軌跡サンプリングと難易度を考慮したキュレーションに追加で$ 576Kを費やした結果、全体の投資は約$1.47百万ドルとなり、約9,000の品質保証済み環境から約13,000の厳選された軌跡を得ます。広範な実験は OpenSWE の有効性を検証します。OpenSWE-32B および OpenSWE-72B は SWE-bench Verified でそれぞれ62.4%、66.0% を達成し、Qwen2.5 系列の SOTA を確立します。さらに、SWE に焦点を当てた訓練は、ドメイン外の顕著な改善をもたらし、数学的推論で最大12ポイント、科学系ベンチマークで5ポイントの改善を含み、事実のリコールを低下させることなく実現します。