ScaleBox:大規模言語モデル向けの高精度かつスケーラブルなコード検証を可能にする

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ScaleBoxは、大規模言語モデルのためのコード・サンドボックス検証を改善しようとするarXivの提案であり、高い同時実行負荷下で既存システムが抱える「精度」と「効率」の課題に重点を置いています。
  • モデル生成コードをより高精度に検証するための、自動化されたスペシャルジャッジ(特別判定)の生成・管理を導入します。
  • テストケースごとのきめ細かな並列実行と、マルチノード連携により、大規模学習に向けた評価のスケールを実現します。
  • 構成(設定)駆動の評価スイートを備え、実験間で再現可能なベンチマークを支援します。
  • 実験とRLVRの結果から、検証の精度・効率が向上し、LiveCodeBenchでの性能や学習安定性も、ヒューリスティックな一致ベースラインより優れていることが示されています。

要旨: コード・サンドボックスは、大規模言語モデルのコーディング能力を発展させるための重要なインフラとして登場し、強化学習(RL)の学習と評価の両方に対して検証可能なフィードバックを提供している。 しかし、既存のシステムは高い同時実行負荷の下で、正確な検証と効率の双方を提供できていない。 本稿では、大規模なコード・トレーニングにおけるこれらの制約に対処するための、高忠実度かつスケーラブルなシステムであるScaleBoxを提案する。 ScaleBoxは、自動化された特別判定(special-judge)の生成と管理、テストケース間でのきめ細かな並列実行、およびシームレスなマルチノード協調を導入し、さらに再現可能なベンチマークのための設定駆動型の評価スイートを提供する。 一連の実験により、ScaleBoxがコード検証の精度と効率を大幅に向上させることを示す。 また、我々の追加のRLVR実験では、ScaleBoxがLiveCodeBenchでの性能とトレーニングの安定性の両方を大きく改善し、ヒューリスティック一致(heuristic-matching)のベースラインを大幅に上回ることが分かった。 信頼性が高く高スループットなインフラを提供することで、ScaleBoxは大規模コード・トレーニングにおける研究開発をより効果的に促進する。