SWE-QA:複雑なコード理解のためのデータセットとベンチマーク

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、実際のソフトウェア開発で必要となる情報のつなぎ込み(マルチホップ)を評価することを目的としたベンチマークデータセット「SWE-QA」を提案しています。
  • SWE-QAはSWE-bench由来の12個のPythonリポジトリから生成された9,072問の四択問題で、Declaration-and-CallやInteracting-Entityといった推論パターンに焦点を当てています。
  • データセット作成では、パースに基づくエンティティ抽出とLLM支援による問題生成、さらに検証済みのダミー(選択肢)を用いることで、表面的なパターン当てを起こしにくくしています。
  • 15種類の言語モデル(360M〜671Bパラメータ)を評価した結果、マルチホップ推論は依然として難しく、最良の精度は74.41%でした。
  • 高密度アーキテクチャは mixture-of-experts モデルより10〜14ポイント上回り、一方で推論強化型バリアントは効果が一貫しませんでした。

Abstract

本論文では、現実のソフトウェア開発において必要とされる複雑な推論と、単純化された評価タスクの間に存在するギャップに対処することを目的として、多段(multi-hop)のコード理解をベンチマークするためのテキストとコードのコーパスであるSWE-QAを導入します。既存のコード理解ベンチマークが、孤立した断片に焦点を当てているのに対し、開発者は日常的に、複数の離散したコード断片にまたがる情報を結び付ける必要があります。本データセットは、SWE-benchの12個のPythonリポジトリから生成した9,072問の多肢選択問題で構成されており、宣言と呼び出し(Declaration-and-Call)のように、エンティティの定義とその利用を結び付ける再発しやすい推論パターンや、複数の協調するコンポーネント間の動的な関係を調べる相互作用エンティティ(Interacting-Entity)問題など、いくつかの代表的な推論パターンを評価します。パースベースのエンティティ抽出と、慎重に検証された紛らわしい選択肢(distractors)を用いた大規模言語モデル支援による問題構築によって生成されることで、このベンチマークは、表面的なパターン照合と真の理解を区別します。15の言語モデル(360Mから671Bパラメータ)の評価では、多段推論における重大な困難が明らかになり、最良の性能は74.41%の正答率に達します。密な(Dense)アーキテクチャは、混合専門家(mixture-of-experts)モデルを一貫して10〜14パーセンテージポイント上回ります。一方で、推論強化(reasoning-enhanced)バリアントは利益が一貫しません。