SWE-QA-Pro：リポジトリレベルのコード理解の代表的ベンチマークとスケーラブルな学習レシピ

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

SWE-QA-Proは、多様な長尾リポジトリと実行可能な環境を備えたリポジトリレベルのコード理解ベンチマークを導入し、LLMの記憶化を抑制する。
このベンチマークは、トピックのバランスを取るために課題駆動型クラスタリングを用い、難易度の校正により直接解答ベースラインで解ける問題を除外して、主体的なコードベース探索を際立たせる。
著者らは、より小さなモデルがツールの利用と推論を学べるように、スケーラブルな合成データパイプラインと2段階のトレーニングレシピ（SFT（教師ありファインチューニング）に続くRLAIF（AIフィードバックによる強化学習））を提示する。
実証的には、このレシピで訓練したQwen3-8BモデルはSWE-QA-ProでGPT-4oを2.3ポイント上回り、最先端の商用プロプライエタリモデルとの差を縮め、アプローチの妥当性を裏付ける。

概要：エージェント基盤のリポジトリレベルのコード理解は、複雑なソフトウェア工学タスクを自動化する上で不可欠ですが、この分野には信頼できるベンチマークが不足しています。既存の評価はしばしば長尾のトピックを見落とし、記憶済みの知識でごまかせる人気リポジトリに依存しています。これに対処するため、実行可能な環境を備えた多様な長尾リポジトリから構築されたベンチマーク SWE-QA-Pro を導入します。課題駆動のクラスタリングによってトピックのバランスを強制し、過小表現のタスクタイプをカバーします。また、厳密な難易度キャリブレーション手順を適用します。直接回答ベースラインで解ける問題は除外されます。これにより、エージェント的なワークフローが直接回答を大きく上回るデータセットとなり（例：Claude Sonnet 4.5 で約13ポイントの差）、エージェント的なコードベース探索の必要性を確認しています。さらに、このような複雑な挙動の訓練データ不足に対処するため、スケーラブルな合成データパイプラインを提案し、2段階の訓練レシピを動かします：監視付きファインチューニング（SFT）に続く AI フィードバックによる強化学習（RLAIF）。このアプローチは、小型のオープンモデルが効率的なツール使用と推論を学ぶことを可能にします。実証的には、私たちのレシピで訓練された Qwen3-8B モデルは SWE-QA-Pro で GPT-4o を 2.3 ポイント上回り、最先端の独自モデルとの差を大幅に縮小します。これにより、我々の評価の妥当性とエージェント型訓練ワークフローの有効性が示されています。

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

Publickey

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

Dev.to

SWE-QA-Pro：リポジトリレベルのコード理解の代表的ベンチマークとスケーラブルな学習レシピ

要点

関連記事

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer