| 詳細記事: https://autobe.dev/articles/local-llm-benchmark-about-backend-generation.html 5か月前に、こちらで「バックエンドのコーディングエージェントにおけるハードコア function calling ベンチマーク」というスレッドを投稿しました。あの投稿で書いたとおり、これは制御されていない計測でした。各モデルが、複雑な再帰的ユニオンのASTスキーマをそもそも埋められるかどうかを示すのには役立ちましたが、厳密な意味でのベンチマークではありませんでした。 今回の投稿は、制御された変数と実際のスコアリング基準を備えた正規版です。 共有する価値がある3つの発見
まだ調査中の3つの逆転正直、まだどう解釈すればいいのかわからない結果がいくつかあります:
何かを断定する前に調べたい2つの読み筋:
さらに掘り下げたら、次回ラウンドで報告します。 おすすめ(候補)歓迎現時点で私たちが注目している3つの候補:
もし、条件のいずれかを満たす他の小型モデルを知っているなら(OpenRouter で $0.25/M 未満、または 64GB の統合メモリ搭載ノートPCで動かせて)、かつ function calling をきれいに処理できる場合は、コメントしてください。 r/LocalLLaMA は私たちよりも早くこうしたものを見つける傾向があり、このスレッドからのおすすめは来月の比較対象セットの大きな部分を埋めるでしょう。 参考文献
[リンク] [コメント] |
関数呼び出しによるバックエンド生成のローカルLLMベンチマーク(GLM vs Qwen vs DeepSeek)
Reddit r/LocalLLaMA / 2026/5/3
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この記事では、関数呼び出しを用いたバックエンドコード生成について、GLM(示唆)、Qwen、DeepSeekなどのモデルを構造化された採点ルールで比較する、制御されたローカルLLMベンチマークを提示しています。
- 関数呼び出しハーネスにより、バックエンド生成におけるフロンティアモデルとローカルモデルの性能差が大きく縮まったと報告されており、たとえばGPT-5.4とQwen3.5-35b-a3b、Claude Sonnetとより小型のQwenの間に近い結果が示されています。
- 次回以降はコスト制約のためフロンティアモデルを比較対象から外し、代わりにOpenRouterの安価なエンドポイントや、64GBの統合メモリ搭載ノートPCで動かせるモデルに切り替える方針です。
- 今後のラウンドでは、バックエンドに加えてフロントエンド自動化もテストに含める予定で、AutoBeが生成するSDKでエンドツーエンドの動作するフロントエンドを作れる見込みが述べられています。
- 旗艦モデルがmini版を下回るケースや、同一ファミリー内でQwenのdense 27Bが大きなMoE変種を上回るなど、直感に反する順位結果については引き続き調査中です。




