SWE-Edit：効率的なSWEエージェントのためのコード編集の再考

arXiv cs.CL / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、現在のLLMベースのコード編集ワークフローにおける「コンテキスト結合」の根本課題を指摘し、コードの閲覧・修正計画・編集実行が1つのコンテキストウィンドウに混在することでパフォーマンスが低下すると述べています。
SWE-Editとして、閲覧（必要なコードのオンデマンド抽出）と編集（高レベルの計画に基づく変更の実行）を2つのサブエージェントに分離し、推論とコンテキスト集約的な処理を切り分けます。
編集モデルの設計要因を分析し、一般的なfind-and-replace形式がエラーを起こしやすいことを示したうえで、Qwen3-8BをGRPOで学習し、編集モードを適応的に選択できるようにしています。
SWE-bench Verifiedでの結果では、解決率が2.1%向上する一方で推論コストが17.9%削減され、提案手法の有効性が示されます。
さらに、下流のエージェント的性能をより確実に予測できるコード編集ベンチマークを提案し、編集モデル選定の実用的な指針も提供しています。

要旨: 大規模言語モデルのエージェントはソフトウェア工学タスクにおいて目覚ましい進歩を遂げていますが、現行のアプローチには根本的なコンテキスト結合問題があります。標準的なコード編集インターフェースは、コードの検査、変更計画、編集実行を単一のコンテキストウィンドウ内で混同してしまい、その結果、エージェントは探索的な閲覧と、厳密にフォーマットされた編集生成を交互に行うことを強いられます。これにより無関係な情報が蓄積し、エージェントの性能が低下します。この課題に対処するため、我々はSWE-Editを提案します。SWE-Editはコード編集を2つの専門サブエージェントに分解します。すなわち、タスクに関連するコードを必要に応じて抽出するViewerと、高レベルの計画から変更を実行するEditorです。これにより、メインのエージェントは推論に集中でき、コンテキスト集約的な操作はクリーンなコンテキストウィンドウへ委譲できるようになります。さらに、有効な編集モデルを何が特徴づけるのかを調査します。支配的なfind-and-replace形式はエラーを起こしやすいことに着目し、GRPOを用いてQwen3-8Bを学習し、編集モードを適応的に選択できるようにします。これにより、単一形式のベースラインと比べて編集効率が向上します。SWE-bench Verifiedでは、SWE-Editは解決率を2.1%改善しつつ、推論コストを17.9%削減します。加えて、下流のエージェント型性能を確実に予測するコード編集ベンチマークも提案し、編集モデル選択に関する実践的な指針を提供します。我々のコードは https://github.com/microsoft/SWE-Edit で公開されています。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

Dev.to

SWE-Edit：効率的なSWEエージェントのためのコード編集の再考

要点

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer