リポジトリ単位のソフトウェアエンジニアリング評価のための時間的一貫性ベンチマーク
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、時点T0でリポジトリをスナップショット化し、T0以前に利用可能だった成果物のみに知識を制限することで、リポジトリを考慮したソフトウェアエンジニアリング評価のための時間的一貫性(time-consistent)ベンチマーク手法を提案する。
- 将来のプルリクエスト((T0, T1])から自然言語のエンジニアリング課題を導出し、他の要因を一定に保ったうえで、リポジトリ由来のコード知識の有無を変えるマッチドA/B設定で単一のソフトウェアエンジニアリングエージェントを評価する。
- LLM支援によるプロンプト生成パイプラインを用いて、過去のプルリクエストを課題へと変換する。合成的な課題設計、プロンプト漏洩(prompt leakage)、時間的汚染(temporal contamination)といった問題に対処する。
- DragonFlyおよびReactリポジトリに対するベースライン実験では、Claude系モデルと複数のプロンプト粒度を用いる。ファイルレベルのF1は、より良いプロンプト誘導によって単調に増加し、最も強力に検証された設定で約0.808に到達する。
- 著者らは、プロンプト構築がベンチマークの主要な変数であると結論づけ、時間的一貫性と強いプロンプト制御が、リポジトリ対応システムの妥当な評価に不可欠であることを強調する。



