大規模コードベースにおけるエージェント主導の最適化の評価

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FormulaCode を紹介します。大規模で実世界のコードベースにおけるエージェント主導の最適化を評価するためのベンチマークで、細粒度かつ多目的な性能指標を提供します。
GitHub 上の科学系 Python リポジトリから抽出された957個のパフォーマンスボトルネックで構成されており、各ボトルネックには専門家作成のパッチが付随し、タスクごとに平均264.6件のコミュニティが維持するパフォーマンスワークロードが割り当てられています。
評価の結果、リポジトリ規模の多目的最適化は最前線のLLMエージェントにとって依然として大きな課題であることが示されました。
公式サイト: https://formula-code.github.io

要約：大規模言語モデル（LLM）を用いたコーディングエージェントは、ますますリポジトリレベルでの運用へと移行しており、現実的な制約の下でコードベース全体を最適化する能力を評価するベンチマークの必要性を促しています。既存のコードベンチマークは主に合成タスク、バイナリの正確性シグナル、または単一目的の評価に依存しており、全体的な最適化挙動を評価する能力を制限しています。FormulaCode は、現実世界の大規模なコードベースを対象とし、微細なマルチオブジェクティブ性能指標を用いてエージェントの最適化を評価するベンチマークです。FormulaCode は、GitHub 上の科学系 Python リポジトリから採掘された 957 件のパフォーマンスボトルネックで構成されており、それぞれ専門家が執筆したパッチと対になっており、タスクあたり平均で 264.6 件のコミュニティが維持するパフォーマンスワークロードが付随します。これにより、現実的な正確性と性能制約の下でコードベースを最適化するための LLM エージェントの全体的な能力を実現します。我々の評価は、リポジトリ規模のマルチオブジェクティブ最適化が最前線のLLMエージェントにとって依然として大きな課題であることを示しています。プロジェクト公式サイト: https://formula-code.github.io

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

Qiita

なんと397BのAIモデルをiPhoneで動かすことに成功

GIGAZINE

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

大規模コードベースにおけるエージェント主導の最適化の評価

要点

関連記事

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

なんと397BのAIモデルをiPhoneで動かすことに成功

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer