AgentForge：自律的なソフトウェアエンジニアリングのための、実行に裏づけられたマルチエージェントLLMフレームワーク

arXiv cs.AI / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

提案されたAgentForgeは、生成されたコードが正しいかを検証するために「実行（sandboxed execution）を前提とした検証」を最重要原則として位置づけています。
Planner/Coder/Tester/Debugger/Criticの複数エージェントが共有メモリを介して協調し、Dockerサンドボックスでの実行結果がコード変更の伝播可否を決める仕組みになっています。
SWE-BENCH Liteで40.0%の解答率を達成し、シングルエージェント基準より26〜28ポイント上回ると報告されています。
アブレーションにより、「実行フィードバック」と「役割分解（role decomposition）」がそれぞれ独立に性能向上に寄与することが示されています。
フレームワークはGitHubでオープンソースとして公開されています。

要旨: 大規模言語モデルはもっともらしいコードを生成できますが、正しさを検証できません。既存のマルチエージェントシステムは、実行をシミュレートするか、あるいは検証を任意としています。本稿では、実行に根ざした検証を第一級の原則として導入します。つまり、コード変更は伝播させる前に、サンドボックス化された実行に耐えなければなりません。この原則を、AGENTFORGEというマルチエージェントのフレームワークに実装します。そこでは、Planner、Coder、Tester、Debugger、Criticの各エージェントが、共有メモリと必須のDockerサンドボックスを通じて協調します。LLMによるソフトウェア工学を、リポジトリ状態に対する反復的な意思決定プロセスとして形式化し、実行フィードバックを、次トークン尤度よりも強い監督シグナルとして位置づけます。AGENTFORGEは、SWE-BENCH Liteにおいて40.0\%の解決率を達成し、単一エージェントのベースラインを26--28ポイント上回ります。アブレーションにより、実行フィードバックと役割分解のそれぞれが独立して性能を押し上げることが確認されます。このフレームワークはオープンソースで、https://github.com/raja21068/AutoCodeAI です。

Black Hat Asia

AI Business

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

Dev.to

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AgentForge：自律的なソフトウェアエンジニアリングのための、実行に裏づけられたマルチエージェントLLMフレームワーク

要点

関連記事

Black Hat Asia

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIで研修刷新 サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供 「SaaSの死」再燃

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃