AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering

arXiv cs.AI / 4/16/2026

💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

Key Points

  • 提案されたAgentForgeは、生成されたコードが正しいかを検証するために「実行(sandboxed execution)を前提とした検証」を最重要原則として位置づけています。
  • Planner/Coder/Tester/Debugger/Criticの複数エージェントが共有メモリを介して協調し、Dockerサンドボックスでの実行結果がコード変更の伝播可否を決める仕組みになっています。
  • SWE-BENCH Liteで40.0%の解答率を達成し、シングルエージェント基準より26〜28ポイント上回ると報告されています。
  • アブレーションにより、「実行フィードバック」と「役割分解(role decomposition)」がそれぞれ独立に性能向上に寄与することが示されています。
  • フレームワークはGitHubでオープンソースとして公開されています。

Abstract

Large language models generate plausible code but cannot verify correctness. Existing multi-agent systems simulate execution or leave verification optional. We introduce execution-grounded verification as a first-class principle: every code change must survive sandboxed execution before propagation. We instantiate this principle in AGENTFORGE, a multi-agent framework where Planner, Coder, Tester, Debugger, and Critic agents coordinate through shared memory and a mandatory Docker sandbox. We formalize software engineering with LLMs as an iterative decision process over repository states, where execution feedback provides a stronger supervision signal than next-token likelihood. AGENTFORGE achieves 40.0\% resolution on SWE-BENCH Lite, outperforming single-agent baselines by 26--28 points. Ablations confirm that execution feedback and role decomposition each independently drive performance. The framework is open-source at https://github.com/raja21068/AutoCodeAI.