AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering
arXiv cs.AI / 4/16/2026
💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
Key Points
- 提案されたAgentForgeは、生成されたコードが正しいかを検証するために「実行(sandboxed execution)を前提とした検証」を最重要原則として位置づけています。
- Planner/Coder/Tester/Debugger/Criticの複数エージェントが共有メモリを介して協調し、Dockerサンドボックスでの実行結果がコード変更の伝播可否を決める仕組みになっています。
- SWE-BENCH Liteで40.0%の解答率を達成し、シングルエージェント基準より26〜28ポイント上回ると報告されています。
- アブレーションにより、「実行フィードバック」と「役割分解(role decomposition)」がそれぞれ独立に性能向上に寄与することが示されています。
- フレームワークはGitHubでオープンソースとして公開されています。
Related Articles

Black Hat Asia
AI Business

Introducing Claude Opus 4.7
Anthropic News

AI traffic to US retailers rose 393% in Q1, and it’s boosting their revenue too
TechCrunch

Who Audits the Auditors? Building an LLM-as-a-Judge for Agentic Reliability
Dev.to

"Enterprise AI Cost Optimization: How Companies Are Cutting AI Infrastructure Sp
Dev.to