SWE-QA-Pro:リポジトリレベルのコード理解の代表的ベンチマークとスケーラブルな学習レシピ

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • SWE-QA-Proは、多様な長尾リポジトリと実行可能な環境を備えたリポジトリレベルのコード理解ベンチマークを導入し、LLMの記憶化を抑制する。
  • このベンチマークは、トピックのバランスを取るために課題駆動型クラスタリングを用い、難易度の校正により直接解答ベースラインで解ける問題を除外して、主体的なコードベース探索を際立たせる。
  • 著者らは、より小さなモデルがツールの利用と推論を学べるように、スケーラブルな合成データパイプラインと2段階のトレーニングレシピ(SFT(教師ありファインチューニング)に続くRLAIF(AIフィードバックによる強化学習))を提示する。
  • 実証的には、このレシピで訓練したQwen3-8BモデルはSWE-QA-ProでGPT-4oを2.3ポイント上回り、最先端の商用プロプライエタリモデルとの差を縮め、アプローチの妥当性を裏付ける。

概要:エージェント基盤のリポジトリレベルのコード理解は、複雑なソフトウェア工学タスクを自動化する上で不可欠ですが、この分野には信頼できるベンチマークが不足しています。既存の評価はしばしば長尾のトピックを見落とし、記憶済みの知識でごまかせる人気リポジトリに依存しています。これに対処するため、実行可能な環境を備えた多様な長尾リポジトリから構築されたベンチマーク SWE-QA-Pro を導入します。課題駆動のクラスタリングによってトピックのバランスを強制し、過小表現のタスクタイプをカバーします。また、厳密な難易度キャリブレーション手順を適用します。直接回答ベースラインで解ける問題は除外されます。これにより、エージェント的なワークフローが直接回答を大きく上回るデータセットとなり(例:Claude Sonnet 4.5 で約13ポイントの差)、エージェント的なコードベース探索の必要性を確認しています。さらに、このような複雑な挙動の訓練データ不足に対処するため、スケーラブルな合成データパイプラインを提案し、2段階の訓練レシピを動かします:監視付きファインチューニング(SFT)に続く AI フィードバックによる強化学習(RLAIF)。このアプローチは、小型のオープンモデルが効率的なツール使用と推論を学ぶことを可能にします。実証的には、私たちのレシピで訓練された Qwen3-8B モデルは SWE-QA-Pro で GPT-4o を 2.3 ポイント上回り、最先端の独自モデルとの差を大幅に縮小します。これにより、我々の評価の妥当性とエージェント型訓練ワークフローの有効性が示されています。