Frontier-Eng: 生成的最適化による実世界のエンジニアリング課題で自己進化型エージェントをベンチマークする

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、人間によって検証されたベンチマークであるFrontier-Engを導入し、単純な合否目的ではなく生成的最適化として定式化された実世界のエンジニアリング課題において、自己進化型AIエージェントを評価することを目的とする。
Frontier-Engは、実行可能な検証器と産業レベルのシミュレータを用いた反復的な提案–実行–評価ループを採用し、固定された相互作用予算のもとで厳格な実現可能性（フィージビリティ）制約を強制しつつ、継続的な報酬シグナルを提供する。
ベンチマークは、5つのエンジニアリングカテゴリにまたがる47のタスクを対象とし、代表的な探索フレームワークに基づいて8つの最先端言語モデルを評価する。
Claude 4.6 Opusが全体として最も堅牢な性能を示したが、結果は、試験したすべてのモデルにとってこのベンチマークが依然として難題であることを示している。
著者らは、改善頻度と改善の大きさに関する二重のべき乗則の減衰を報告し、限られた予算のもとで得られた改善を実現するには、幅よりも深さがより重要であることを見出している。

要旨: 現在のLLMエージェントベンチマークは、コード生成や検索ベースの質問応答のような二値の合否（pass/fail）タスクに主に焦点を当てていることが多く、実世界のエンジニアリングにおける価値――すなわち、実現可能な設計を反復的に最適化することで捉えられる価値――を見落としがちです。そこで本研究では、生成的最適化のための、人手で検証されたベンチマークであるFrontier-Engを導入します。これは、エージェントが候補となる成果物を生成し、実行可能な検証者からのフィードバックを受け取り、固定された相互作用予算のもとでそれらを改訂していく、反復的な「提案-実行-評価」ループです。これは、5つの幅広いエンジニアリングカテゴリにまたがって、 $47$ のタスクを含みます。従来のスイートとは異なり、Frontier-Engのタスクは、産業グレードのシミュレータおよび検証器に基づいており、連続的な報酬シグナルを提供し、制約された予算のもとで厳密な実現可能性（フィージビリティ）制約を課します。代表的な検索フレームワークを用いて、8つのフロンティア言語モデルを評価したところ、Claude 4.6 Opusが最も頑健な性能を達成する一方で、すべてのモデルにとって本ベンチマークは依然として難しいことがわかりました。分析からは、改善頻度（ $\sim$ 1/iteration）と改善量（ $\sim$ 1/improvement count）の双方に、二重のべき則減衰が見られることが示唆されます。さらに、幅（width）を広げることで並列性と多様性は改善されるものの、固定された予算のもとでの「苦労して得られた改善」に関しては、深さ（depth）が依然として重要であることを示します。Frontier-Engは、複雑で開かれた工学問題を解くために、AIエージェントが領域知識を実行可能なフィードバックと統合する能力を評価するための新たな基準を確立します。