リポジトリ単位のソフトウェアエンジニアリング評価のための時間的一貫性ベンチマーク

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、時点T0でリポジトリをスナップショット化し、T0以前に利用可能だった成果物のみに知識を制限することで、リポジトリを考慮したソフトウェアエンジニアリング評価のための時間的一貫性（time-consistent）ベンチマーク手法を提案する。
将来のプルリクエスト（(T0, T1]）から自然言語のエンジニアリング課題を導出し、他の要因を一定に保ったうえで、リポジトリ由来のコード知識の有無を変えるマッチドA/B設定で単一のソフトウェアエンジニアリングエージェントを評価する。
LLM支援によるプロンプト生成パイプラインを用いて、過去のプルリクエストを課題へと変換する。合成的な課題設計、プロンプト漏洩（prompt leakage）、時間的汚染（temporal contamination）といった問題に対処する。
DragonFlyおよびReactリポジトリに対するベースライン実験では、Claude系モデルと複数のプロンプト粒度を用いる。ファイルレベルのF1は、より良いプロンプト誘導によって単調に増加し、最も強力に検証された設定で約0.808に到達する。
著者らは、プロンプト構築がベンチマークの主要な変数であると結論づけ、時間的一貫性と強いプロンプト制御が、リポジトリ対応システムの妥当な評価に不可欠であることを強調する。

Abstract

リポジトリを意識したソフトウェア工学システムの評価は、しばしば合成的なタスク設計、プロンプト漏洩、そしてリポジトリ知識と将来のコード変更との間における時間的な汚染によって混乱させられます。本稿では、時系列の一貫性を保ったベンチマーク手法を提示します。すなわち、時刻T0においてリポジトリをスナップショットし、T0以前に利用可能だった成果物のみを用いてリポジトリ由来のコード知識を構築し、将来の間隔 (T0, T1] にマージされたプルリクエストから導出された工学タスクで評価します。各歴史的プルリクエストは、LLM支援によるプロンプト生成パイプラインを通じて自然言語のタスクへと変換され、ベンチマークは、同じソフトウェア工学エージェントを、リポジトリ由来のコード知識の有無で評価する対応付けられたA/B比較として形式化されます。その際、他のすべての変数は一定に保ちます。さらに、Claudeファミリーの3つのモデルと4つのプロンプト粒度を用いて、2つのオープンソースリポジトリ（DragonFlyとReact）に対するベースラインの特性評価研究も報告します。両方のリポジトリにおいて、ファイル単位のF1は最小のプロンプトからガイド付きプロンプトへと単調に増加し、最も強いテスト済みモデルではDragonFlyで0.8081、Reactで0.8078に到達しました。これらの結果は、プロンプト構築が一次のベンチマーク変数であることを示しています。より広く言えば、このベンチマークは、時間的整合性とプロンプト制御が、リポジトリを意識したソフトウェア工学評価における中核的な妥当性要件であることを強調しています。

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

AIエージェントにかかる10億ドル規模の税金

Dev.to

リポジトリ単位のソフトウェアエンジニアリング評価のための時間的一貫性ベンチマーク

要点

Abstract

関連記事

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

AIエージェントにかかる10億ドル規模の税金

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer