関数呼び出しによるバックエンド生成のローカルLLMベンチマーク(GLM vs Qwen vs DeepSeek)

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事では、関数呼び出しを用いたバックエンドコード生成について、GLM(示唆)、Qwen、DeepSeekなどのモデルを構造化された採点ルールで比較する、制御されたローカルLLMベンチマークを提示しています。
  • 関数呼び出しハーネスにより、バックエンド生成におけるフロンティアモデルとローカルモデルの性能差が大きく縮まったと報告されており、たとえばGPT-5.4とQwen3.5-35b-a3b、Claude Sonnetとより小型のQwenの間に近い結果が示されています。
  • 次回以降はコスト制約のためフロンティアモデルを比較対象から外し、代わりにOpenRouterの安価なエンドポイントや、64GBの統合メモリ搭載ノートPCで動かせるモデルに切り替える方針です。
  • 今後のラウンドでは、バックエンドに加えてフロントエンド自動化もテストに含める予定で、AutoBeが生成するSDKでエンドツーエンドの動作するフロントエンドを作れる見込みが述べられています。
  • 旗艦モデルがmini版を下回るケースや、同一ファミリー内でQwenのdense 27Bが大きなMoE変種を上回るなど、直感に反する順位結果については引き続き調査中です。
Function Calling(GLM vs Qwen vs DeepSeek)によるバックエンド生成に関するローカルLLMベンチマーク

詳細記事: https://autobe.dev/articles/local-llm-benchmark-about-backend-generation.html


5か月前に、こちらで「バックエンドのコーディングエージェントにおけるハードコア function calling ベンチマーク」というスレッドを投稿しました。あの投稿で書いたとおり、これは制御されていない計測でした。各モデルが、複雑な再帰的ユニオンのASTスキーマをそもそも埋められるかどうかを示すのには役立ちましたが、厳密な意味でのベンチマークではありませんでした。

今回の投稿は、制御された変数と実際のスコアリング基準を備えた正規版です。

共有する価値がある3つの発見

  1. function calling ハーネスによって、バックエンド生成におけるフロンティア対ローカルのギャップが実質的に埋まりました。 gpt-5.4 のDB/API設計 ≈ qwen3.5-35b-a3b のもの。 claude-sonnet-4.6 のロジック ≈ qwen3.5-27b のもの。

  2. これが、フロンティアモデルを含める最後のラウンドです。 毎月それらを回すのは、オープンソースプロジェクトにとって本当にコストが高すぎます。1回のショッピングモール実行は約 ~200–300M tokens(GPT 5.5の価格ならモデルあたり約$1,000–$1,500)です。来月からは、比較対象を OpenRouter の $0.25/M 未満のエンドポイント、または 64GB の統合メモリ搭載ノートPCで動作するモデルに限定します。

  3. フロントエンド自動化が、2〜3か月でベンチマークに合流します。 AutoBe がすでに出力しているSDKだけで、エンドツーエンドで動くAI生成フロントエンドを駆動できます(見た目は粗いですが、すべての関数が機能します)。6月/7月のラウンドでは、バックエンドと自動生成されたフロントエンドを一緒にカバーします。

まだ調査中の3つの逆転

正直、まだどう解釈すればいいのかわからない結果がいくつかあります:

  • openai/gpt-5.4 は、実際には自身の mini 相当より低いスコアを取っています。
  • deepseek-v4-proqwen3.5-35b-a3b より1段下に位置し、さらに自身の Flash 相当とはほとんど差がありません。
  • Qwen ファミリーの中では、密な 27B がすべての MoE バリアントに勝っています。397B-A17B でさえもです。

何かを断定する前に調べたい2つの読み筋:

  1. CoT(Chain-of-Thought)準拠現象 — より大きく、よりフロンティア級のモデルほど、手続き的な指示をスキップしがちであり、私たちのハーネスはそこを厳密に強制しています。
  2. ベンチマークの欠陥 — n=4 の参照プロジェクト、スコア帯が狭いこと、そして私たち自身のハーネスが私たち自身のパイプラインを採点していること。

さらに掘り下げたら、次回ラウンドで報告します。

おすすめ(候補)歓迎

現時点で私たちが注目している3つの候補:

  • openai/gpt-5.4-nano — $0.25/M
  • qwen/qwen3.6-27b — $0.195/M
  • deepseek/deepseek-v4-flash — $0.14/M

もし、条件のいずれかを満たす他の小型モデルを知っているなら(OpenRouter で $0.25/M 未満、または 64GB の統合メモリ搭載ノートPCで動かせて)、かつ function calling をきれいに処理できる場合は、コメントしてください。

r/LocalLLaMA は私たちよりも早くこうしたものを見つける傾向があり、このスレッドからのおすすめは来月の比較対象セットの大きな部分を埋めるでしょう。

参考文献

提供者 /u/jhnam88
[リンク] [コメント]