AutoBeは、エンドツーエンドのバックエンド生成のためのベンチマークです。自然言語による1つのリクエストから、6つの出力が生成されます:要件分析、ERD、OpenAPI仕様、E2Eテスト、NestJS実装、型安全なSDK。各フェーズは、非構造のコードを生成するのではなく、構造化された関数呼び出しによって事前に定義されたASTを埋めていきます。採点ルーブリックは100点満点で、静的解析だけで決まります――誰が再実行しても、同じ成果物は同じ点数になります。
主要な発見は、スコアが非常に密にクラスター化していることです。GLM 5がベンチマーク実行のトップに立っています。qwen3.5-27bは、フロンティアモデル群の直後に位置します。いくつかのローカルモデルは、エンタープライズ規模のバックエンドを100%コンパイル成功で生成しました。著者の解釈はこうです:ハーネス(計測基盤)が構造化されると、バックエンド生成の品質は、モデルの名声よりもハーネス設計によってより制約される。
コストの対比は大きいです。フロンティア価格($5/Mの入力トークン)でのベンチマークを1回完走するには、1モデルあたり$1,000〜$1,500かかります。次のベンチマークラウンドでは、入力$0.25/Mか、または64GBの統合メモリ搭載ノートPCで実行可能なモデルに絞り込む予定です――これは、いずれにせよ上位付近にクラスターしていたほとんどのモデルを含むことになります。
著者からの率直な注意点:この評価では4つの参照プロジェクトを使っており、手続き型の関数呼び出し指示にうまく従えるモデルが有利に働く可能性があります。よく構造化されたベンチマークの固定具(フィクスチャー)を超えて、これらの結果がどれほど一般化するかは、まだ未解決の問いです。
本番環境のタスクでの構造化された関数呼び出しに関するあなたの経験は、このようなベンチマーク結果と整合していますか?
[link] [comments]



