機械学習エンジニアリング・エージェントを訓練するための合成サンドボックス

arXiv cs.CL / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、機械学習エンジニアリング(MLE)エージェントの検証が、ソフトウェアエンジニアリング(SWE)エージェントよりもはるかに高コストであると主張している。理由は、MLEの検証では、ロールアウトの各ステップごとに前処理・学習・評価から成る完全なMLパイプラインを実行する必要があるためである。
  • 最大のボトルネックはサンドボックスのデータ規模であると特定し、少数のシード課題から多様性を保ちつつ微小スケールの合成MLE環境を生成するマルチエージェント枠組み SandMLE を提案する。
  • 各合成タスクを 50〜200件の学習サンプルのみに制約しつつ、現実世界の構造的複雑さは維持することで、SandMLE は MLE領域における軌跡ごとのオンポリシー強化学習を現実的に可能にしている。
  • 実験の結果、SandMLE は実行時間を 13倍以上削減し、複数のモデルサイズにおいて教師あり微調整ベースラインよりも MLE-bench-lite 上での性能を向上させる(相対メダル率の改善は 20.3%〜66.9%)。
  • 得られたポリシーは、未見のエージェント・スキャフォールドにも汎化でき、MLE-Dojo で HumanRank を最大 32.4% 改善する。

要旨: 大規模言語モデル(LLM)エージェントがソフトウェア工学(SWE)タスクを超えて機械学習工学(MLE)へと進むにつれ、エージェントの振る舞いを検証するコストは桁違いに高くなります。SWEタスクは高速に実行できるユニットテストによって検証可能であるのに対し、MLE検証では、データ前処理、モデル学習、指標評価といった全MLパイプラインを、各ロールアウト手順ごとに大規模データセット上で実行する必要があり、軌道(trajectory)単位のオンポリシー強化学習(RL)は実行が極めて遅くなってしまいます。既存のアプローチは、探索やオンポリシーRLがもたらす汎化の利点を犠牲にして、教師あり微調整(SFT)やオフライン代理報酬へと後退しています。本研究では、このボトルネックの主因がサンドボックスデータサイズであることを観察します。この洞察に基づき、SandMLE を提案します。SandMLE はマルチエージェントの枠組みであり、少数のシードタスクから、多様で検証可能な合成MLE環境を生成します。これにより、現実世界の問題が持つ構造的・技術的な複雑さを維持しつつ、データセットをマイクロスケールに制約します(各タスクはトレーニングサンプル 50〜200 のみと対応付けます)。大規模な実験の結果、SandMLE は実行時間を 13 倍以上削減し、MLE 分野で初めて大規模な軌道単位のオンポリシーRLを可能にすることを示します。MLE-bench-lite では、SandMLE は Qwen3-8B、14B、30B-A3B において SFT のベースラインを大きく上回り、相対的なメダル率の改善は 20.3% から 66.9% の範囲に及びます。さらに、学習済みポリシーは未知のエージェント型の骨組み(agentic scaffolds)に対しても汎化し、MLE-Dojo で最大 32.4% より良い HumanRank スコアを達成します。

機械学習エンジニアリング・エージェントを訓練するための合成サンドボックス | AI Navigate