SWE-chat:実ユーザーの実運用に基づくコーディング・エージェントの対話
arXiv cs.AI / 2026/4/23
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、オープンソース開発者から収集した実運用のコーディング・エージェント・セッションを対象とする大規模データセット「SWE-chat」を発表しており、6,000セッション、ユーザープロンプト63,000件超、エージェントのツール呼び出し35万件超を含みます。
- データセットの分析ではコーディング行動が二峰性であることが示され、コミットされたコードのほぼ全てをエージェントが執筆するのが41%のセッション(“vibe coding”)である一方、23%では人間が全てのコードを書いています。
- 能力は急速に向上しているにもかかわらず、自然な環境での効率は限定的で、エージェントが生成したコードのうちユーザーのコミットに残るのは44%にとどまります。
- 品質と安全性の面でも課題があり、エージェントが書いたコードは人間が書いたコードよりもセキュリティ脆弱性が多いと報告されています。
- ユーザーは補正・失敗報告・中断などを通じてエージェントの出力に抵抗することが多く、全対話ターンの44%でそうした反応が見られました。これにより、厳選ベンチマークから実証に基づく評価へ移る必要性が示されています。
関連記事

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記
note

【note更新、嫌になってませんか】告知ゼロで19,860円の記事が累計3本売れた夜に、私が見ている世界規模の油田の話。あなたは今、石油を掘っている自覚はありますか? #生成AI #AI活用 #noteで読めるマンガ #ChatGPTImages2.0 #ChatGPT #Claude #Gemini #Kindle出版 #nanobanana #note #情報発信 #ビジネス #noteの書き方 #副業 #マーケティング
note

XのAI、Grok(グロク)と宇宙や構成のお話するよ。まずはグロクの性格から!
note

XのAI、Grok(グロク)と宇宙や構成のお話するよ。まずはグロクの性格から!
note

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持
note