AgentForge:自律的なソフトウェアエンジニアリングのための、実行に裏づけられたマルチエージェントLLMフレームワーク

arXiv cs.AI / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 提案されたAgentForgeは、生成されたコードが正しいかを検証するために「実行(sandboxed execution)を前提とした検証」を最重要原則として位置づけています。
  • Planner/Coder/Tester/Debugger/Criticの複数エージェントが共有メモリを介して協調し、Dockerサンドボックスでの実行結果がコード変更の伝播可否を決める仕組みになっています。
  • SWE-BENCH Liteで40.0%の解答率を達成し、シングルエージェント基準より26〜28ポイント上回ると報告されています。
  • アブレーションにより、「実行フィードバック」と「役割分解(role decomposition)」がそれぞれ独立に性能向上に寄与することが示されています。
  • フレームワークはGitHubでオープンソースとして公開されています。

要旨: 大規模言語モデルはもっともらしいコードを生成できますが、正しさを検証できません。既存のマルチエージェントシステムは、実行をシミュレートするか、あるいは検証を任意としています。本稿では、実行に根ざした検証を第一級の原則として導入します。つまり、コード変更は伝播させる前に、サンドボックス化された実行に耐えなければなりません。この原則を、AGENTFORGEというマルチエージェントのフレームワークに実装します。そこでは、Planner、Coder、Tester、Debugger、Criticの各エージェントが、共有メモリと必須のDockerサンドボックスを通じて協調します。LLMによるソフトウェア工学を、リポジトリ状態に対する反復的な意思決定プロセスとして形式化し、実行フィードバックを、次トークン尤度よりも強い監督シグナルとして位置づけます。AGENTFORGEは、SWE-BENCH Liteにおいて40.0\%の解決率を達成し、単一エージェントのベースラインを26--28ポイント上回ります。アブレーションにより、実行フィードバックと役割分解のそれぞれが独立して性能を押し上げることが確認されます。このフレームワークはオープンソースで、https://github.com/raja21068/AutoCodeAI です。