SWE-QA:複雑なコード理解のためのデータセットとベンチマーク
arXiv cs.AI / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、実際のソフトウェア開発で必要となる情報のつなぎ込み(マルチホップ)を評価することを目的としたベンチマークデータセット「SWE-QA」を提案しています。
- SWE-QAはSWE-bench由来の12個のPythonリポジトリから生成された9,072問の四択問題で、Declaration-and-CallやInteracting-Entityといった推論パターンに焦点を当てています。
- データセット作成では、パースに基づくエンティティ抽出とLLM支援による問題生成、さらに検証済みのダミー(選択肢)を用いることで、表面的なパターン当てを起こしにくくしています。
- 15種類の言語モデル(360M〜671Bパラメータ)を評価した結果、マルチホップ推論は依然として難しく、最良の精度は74.41%でした。
- 高密度アーキテクチャは mixture-of-experts モデルより10〜14ポイント上回り、一方で推論強化型バリアントは効果が一貫しませんでした。




