SWE-chat：実ユーザーの実運用に基づくコーディング・エージェントの対話

arXiv cs.AI / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、オープンソース開発者から収集した実運用のコーディング・エージェント・セッションを対象とする大規模データセット「SWE-chat」を発表しており、6,000セッション、ユーザープロンプト63,000件超、エージェントのツール呼び出し35万件超を含みます。
データセットの分析ではコーディング行動が二峰性であることが示され、コミットされたコードのほぼ全てをエージェントが執筆するのが41%のセッション（“vibe coding”）である一方、23%では人間が全てのコードを書いています。
能力は急速に向上しているにもかかわらず、自然な環境での効率は限定的で、エージェントが生成したコードのうちユーザーのコミットに残るのは44%にとどまります。
品質と安全性の面でも課題があり、エージェントが書いたコードは人間が書いたコードよりもセキュリティ脆弱性が多いと報告されています。
ユーザーは補正・失敗報告・中断などを通じてエージェントの出力に抵抗することが多く、全対話ターンの44%でそうした反応が見られました。これにより、厳選ベンチマークから実証に基づく評価へ移る必要性が示されています。