要旨: 大規模言語モデル(LLM)は、エージェント的探索またはフルコンテキスト生成のいずれかにより、大規模なコードベース上で動作する有能なコーディングアシスタントとして、近年登場してきました。既存のベンチマークは、GitHubの課題の解決など、幅広いコーディング能力を捉えていますが、いずれも、コード生成の際にLLMがリポジトリ単位のコンテキストをどれほど効果的に活用しているかを直接に切り出して測定するものではありません。これに対処するために、私たちはReCUBEを提案します。ReCUBEは、実世界のリポジトリ内でマスクされたファイルを、残りのすべてのソースファイル、依存関係の仕様、およびドキュメントのみをコンテキストの唯一の情報源として用い、LLMに再構築させるベンチマークです。ReCUBEは、内部モジュールのロジックと外部のファイル横断統合の両方をシミュレートする、使用状況を考慮したテストケースにより、再構築コードを評価し、実際のソフトウェアの利用パターンを反映します。さらに、Caller-Centric Exploration(CCE)ツールキットも提案します。これは、依存関係グラフに基づく一連のツールであり、エージェント的フレームワークに統合して、リポジトリ探索の際にエージェントを最も関連性の高い呼び出し元ファイルへ導くために利用できます。4つの設定にわたる8つのモデルでの実験では、最先端のモデルでさえ、リポジトリ単位のコンテキスト活用は非常に困難であることが示されます。フルコンテキスト設定でGPT-5が達成した厳密パス率は37.57%にとどまります。私たちのCCEツールキットで拡張されたエージェントは、評価したすべてのモデルにおいて、すべてのベースラインを一貫して上回り、厳密パス率で最大7.56%の改善が見られます。私たちは、NLP研究コミュニティ向けに、ベンチマーク、コード、および評価フレームワークをオープンソースとして公開します。
ReCUBE:コード生成におけるリポジトリ単位の文脈利用を評価する
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文はReCUBEという新しいベンチマークを導入し、モデルがリポジトリ全体の文脈をどれだけうまく活用できるかを切り分けて測定します。具体的には、依存関係の仕様やドキュメントに加えて、リポジトリの残り部分のみを用いて、マスクしたファイルを再構成させます。
- 生成コードの評価には、内部ロジックとファイル間の統合の両方をカバーする使用状況を意識したテストを用い、既存のコーディングベンチマークよりも実際のソフトウェア挙動をより反映することを目指します。
- 8つのモデルと複数の設定における結果から、リポジトリ単位の文脈利用は最先端システムであっても依然として難しいことが示されます。たとえばGPT-5は「フルコンテキスト」設定で厳格な合格率が37.57%でした。
- エージェントによるリポジトリ探索を改善するため、著者らは依存関係グラフに基づくCaller-Centric Exploration(CCE)ツールキットを提案します。これにより、エージェントを最も関連性の高い呼び出し側ファイルへ導くことができ、厳格な合格率が最大7.56%向上します。
- ReCUBEのベンチマーク、コード、評価フレームワークは研究コミュニティ向けにオープンソースとして公開されます。



