AutoBeベンチマーク:構造化ハーネスでバックエンド生成のフロンティア対ローカル差が縮小(D)

Reddit r/MachineLearning / 2026/5/4

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AutoBeは、自然言語の1リクエストから要件分析、ERD、OpenAPI仕様、E2Eテスト、NestJS実装、型安全なSDKまでを生成するエンドツーエンドのバックエンド生成ベンチマークである。
  • ベンチマークは、無秩序なコード生成ではなく、関数呼び出しによって所定のASTを段階的に埋める「構造化アプローチ」を採用しており、評価は静的解析のみで行うため、再実行しても同じ成果物が同様に採点される。
  • モデルのスコアは概ね接近しており、GLM 5が首位で、qwen3.5-27bがすぐ後に続き、複数のローカルモデルもコンパイル成功率100%でエンタープライズ規模のバックエンドを生成できた。
  • 著者は、十分に構造化されたハーネスでは、バックエンド生成の品質はモデルの格よりもハーネス設計によって制約される、という解釈を示している。
  • コスト面でも大きな差があり、フロンティア価格での1モデルあたりのベンチマーク実行は約1,000〜1,500ドルかかるため、次回は0.25ドル/100万入力トークン以下のモデル、または64GBのユニファイドメモリ搭載ノートPCで動くモデルに絞る計画がある; ただし4つの参照プロジェクトのみを使っており、手続き型の関数呼び出し指示に従いやすいモデルが有利になる可能性がある点は限界として挙げられている。

AutoBeは、エンドツーエンドのバックエンド生成のためのベンチマークです。自然言語による1つのリクエストから、6つの出力が生成されます:要件分析、ERD、OpenAPI仕様、E2Eテスト、NestJS実装、型安全なSDK。各フェーズは、非構造のコードを生成するのではなく、構造化された関数呼び出しによって事前に定義されたASTを埋めていきます。採点ルーブリックは100点満点で、静的解析だけで決まります――誰が再実行しても、同じ成果物は同じ点数になります。

主要な発見は、スコアが非常に密にクラスター化していることです。GLM 5がベンチマーク実行のトップに立っています。qwen3.5-27bは、フロンティアモデル群の直後に位置します。いくつかのローカルモデルは、エンタープライズ規模のバックエンドを100%コンパイル成功で生成しました。著者の解釈はこうです:ハーネス(計測基盤)が構造化されると、バックエンド生成の品質は、モデルの名声よりもハーネス設計によってより制約される。

コストの対比は大きいです。フロンティア価格($5/Mの入力トークン)でのベンチマークを1回完走するには、1モデルあたり$1,000〜$1,500かかります。次のベンチマークラウンドでは、入力$0.25/Mか、または64GBの統合メモリ搭載ノートPCで実行可能なモデルに絞り込む予定です――これは、いずれにせよ上位付近にクラスターしていたほとんどのモデルを含むことになります。

著者からの率直な注意点:この評価では4つの参照プロジェクトを使っており、手続き型の関数呼び出し指示にうまく従えるモデルが有利に働く可能性があります。よく構造化されたベンチマークの固定具(フィクスチャー)を超えて、これらの結果がどれほど一般化するかは、まだ未解決の問いです。

本番環境のタスクでの構造化された関数呼び出しに関するあなたの経験は、このようなベンチマーク結果と整合していますか?

submitted by /u/jimmytoan
[link] [comments]