AdamBench - エージェント型コーディング向けローカルLLMのベンチマーク(RTX5080 16GB + 64GB RAM上で)

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • AdamBenchは、解決の質、イテレーション回数、解決までの時間を1つのスコアに統合することで、シンプルなエージェント型コーディングのワークフローにおいてローカルLLMがどれだけ実用的かを測定するためのベンチマークです。
  • 著者は、AdamBenchのGitHubリポジトリに、完全な手法(メソドロジー)、可視化、再現可能なベンチマーク用素材(プロンプトファイルとワークフロー)を公開しており、他者が同一条件下でモデルをテストし比較できるようにしています。
  • 結果には、ローカルでテストされたモデルの「Top 10」ランキングが含まれるほか、ローカル性能との比較のためにAPIベンチマーク済みの追加モデルも掲載されています。
  • このベンチマークでは、ツール呼び出しやチャットテンプレートの問題によって直ちに失敗する一部のモデルを明示的に除外しており、v2の反復に向けて追加したい新しいモデルの提案と、手法改善の提案を著者が歓迎しています。
AdamBench - エージェント的コーディング向けローカルLLMのベンチマーク(RTX5080 16Gb + 64Gb RAM上)

さて……私は、エージェント的コーディングのワークフローで自分が使うための、最高のローカルモデルを探していました。そして、このベンチマークのアイデアが生まれた経緯はそういうことです。かなり「自分向けに特化した」内容ではあるのですが、他の人にも役に立つかもしれないと思ったので、記録して公開することにしました。

ベンチマークの全結果、手法(メソドロジー)、可視化などはこちらで確認できます:https://github.com/tabupl/AdamBench

README(review_outputs 内のプロンプトファイルを含む)は、結果を比較したい場合や、自分がテストしたモデルに対して他のモデルを試したい場合に、まったく同じベンチマーク手順を再現するために必要な情報をすべて提供しているはずです。

また、まだテストしていないモデルについて「これを入れてほしい」といったおすすめがあれば大歓迎です。あるいは手法(メソドロジー)に関するおすすめも歓迎です(README の終盤を見てください。AdamBench v2 で改善したい点を挙げています)。さらに、ツール呼び出しやチャットテンプレートの問題ですぐに失敗してしまったモデルでも、うまく使える可能性があるなら、その方法について教えてください(Mistral Small 4 のことです)。これらのモデルは、生成されてしまった問題のせいでローカルのエージェント的コーディングには役に立たないと判断したため、ベンチマーク結果には一切含めていません :P

これは何?

AdamBench は、シンプルなローカルのエージェント的コーディング手順の中で、モデルの使いやすさを測ることを目的としています。この指標は、モデルの解答の品質スコアに、反復回数(イテレーション数)と、ベンチマークを解くのに要した時間を統合して合成します。

TOP 10(比較のために、API経由でベンチマークしたいくつかのモデルを含む)

https://preview.redd.it/wpvl750c5grg1.png?width=2830&format=png&auto=webp&s=568f15ce4db558c4548fba351ae8538006a364b6

TOP 10(AdamBench スコアによる、ローカルモデルのみ)

https://preview.redd.it/b6nhzfgf5grg1.png?width=3179&format=png&auto=webp&s=24b46450a3c6d9fd2c4ea60572290dc38d52e9f0

選定したローカルモデルにおける、スコア対 AdamBench

https://preview.redd.it/yrhzdwvj5grg1.png?width=2779&format=png&auto=webp&s=d3ba86d0b4707dacc701f739e8ee314660be80ea

ですので、ベンチマークが載っている私のリポジトリをぜひ確認してほしいです。README には、測定した指標のすべてに加えて、追加の可視化、そして AdamBench v2 で改善できる点についての自分の見解やアイデアも含めています。

https://github.com/tabupl/AdamBench

重要なインサイト:

  • 主要ベンチマーク指標(AdamBench)の TOP 1 勝者は Qwen3.5 122b A10b です。
  • ただし、より小型のモデルを探しているなら、テストしたすべてのローカルモデルの中で TOP 3 を達成したのは Qwen3.5 35b A3b でした。
  • そして 35b でもまだ大きすぎる場合は、Qwen3.5 9b が驚くべき TOP 7 を記録し、多くのずっと大型のモデルを上回りました。
  • 私にとって最大の良い驚きは、gpt-oss-120b(TOP 2)と gpt-oss-20b(TOP 5)の性能でした。どちらもかなり良いスコアでしたが、特に重要なのは、サイズの割にとても高速であること、そしてタスクを実行するのに他のモデルよりはるかに少ないトークンしか浪費しないことです。
  • 私にとって最大の落胆は Nemotron モデルでした。品質面でかなり悪く、遅く、また不合理な量のトークン(主に推論)を生成しました。Nemotron 3 Super(このファミリーで最高評価のモデル)は TOP 10 の枠で止まり、この時点でも、ずっと小さいモデルが、品質の最低限の指標においても大きく上回りました。

加えて、私個人の選び方:

私の TOP 1 のデイリードライバー:Qwen3.5 35b A3b(良い速度と品質で、サイズの都合により必要なら長いコンテキストに余裕を残せます)

より複雑なタスクの場合:Qwen3.5 122b A10b は間違いなく、そして gpt-oss-120b も検討に値します。ずっと高速だからです(TPS と、より良いトークン管理のため)。

シンプルなタスク/素早い反復の場合:Qwen3.5 9b か OmniCoder 9b を使いたいと思っていましたが……考えた結果、ここでの私にとっては gpt-oss-20b が最適だと感じました。とにかく速い(170 tps 生成、確かに!)、トークン管理がとても優れていて、そして単純に動作が良いです。

では、私がテストしたすべてのローカルモデルの中から自分用に3つだけ残すとしたら、次の通りです:

  • Qwen3.5 35b A3b
  • Qwen3.5 122b A10b
  • gpt-oss-20b

なお別件ですが、私はもう Nemotron には二度と触れたくありません。信じられないほど非効率だからです(Nemotron 3 Nano は、聖なる 300k 出力トークンを出してくるのを見てください。しかもそのほとんどが推論で、「Snake」を直せないままです)。

もっと情報が必要なら、実際の結果(含まれています)を確認することもできますし、詳細な手法、そして各レビュアーがプロジェクトをどのようにレビューしたのかが気になるなら(すべての review ファイルも含まれています)→ リポジトリを見てください。

submitted by /u/Real_Ebb_7417
[link] [comments]
広告