要約:大規模言語モデル(LLM)を用いたコーディングエージェントは、ますますリポジトリレベルでの運用へと移行しており、現実的な制約の下でコードベース全体を最適化する能力を評価するベンチマークの必要性を促しています。既存のコードベンチマークは主に合成タスク、バイナリの正確性シグナル、または単一目的の評価に依存しており、全体的な最適化挙動を評価する能力を制限しています。FormulaCode は、現実世界の大規模なコードベースを対象とし、微細なマルチオブジェクティブ性能指標を用いてエージェントの最適化を評価するベンチマークです。FormulaCode は、GitHub 上の科学系 Python リポジトリから採掘された 957 件のパフォーマンスボトルネックで構成されており、それぞれ専門家が執筆したパッチと対になっており、タスクあたり平均で 264.6 件のコミュニティが維持するパフォーマンスワークロードが付随します。これにより、現実的な正確性と性能制約の下でコードベースを最適化するための LLM エージェントの全体的な能力を実現します。我々の評価は、リポジトリ規模のマルチオブジェクティブ最適化が最前線のLLMエージェントにとって依然として大きな課題であることを示しています。プロジェクト公式サイト: https://formula-code.github.io
大規模コードベースにおけるエージェント主導の最適化の評価
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FormulaCode を紹介します。大規模で実世界のコードベースにおけるエージェント主導の最適化を評価するためのベンチマークで、細粒度かつ多目的な性能指標を提供します。
- GitHub 上の科学系 Python リポジトリから抽出された957個のパフォーマンスボトルネックで構成されており、各ボトルネックには専門家作成のパッチが付随し、タスクごとに平均264.6件のコミュニティが維持するパフォーマンスワークロードが割り当てられています。
- 評価の結果、リポジトリ規模の多目的最適化は最前線のLLMエージェントにとって依然として大きな課題であることが示されました。
- 公式サイト: https://formula-code.github.io

