| さて……私は、エージェント的コーディングのワークフローで自分が使うための、最高のローカルモデルを探していました。そして、このベンチマークのアイデアが生まれた経緯はそういうことです。かなり「自分向けに特化した」内容ではあるのですが、他の人にも役に立つかもしれないと思ったので、記録して公開することにしました。 ベンチマークの全結果、手法(メソドロジー)、可視化などはこちらで確認できます:https://github.com/tabupl/AdamBench README(review_outputs 内のプロンプトファイルを含む)は、結果を比較したい場合や、自分がテストしたモデルに対して他のモデルを試したい場合に、まったく同じベンチマーク手順を再現するために必要な情報をすべて提供しているはずです。 また、まだテストしていないモデルについて「これを入れてほしい」といったおすすめがあれば大歓迎です。あるいは手法(メソドロジー)に関するおすすめも歓迎です(README の終盤を見てください。AdamBench v2 で改善したい点を挙げています)。さらに、ツール呼び出しやチャットテンプレートの問題ですぐに失敗してしまったモデルでも、うまく使える可能性があるなら、その方法について教えてください(Mistral Small 4 のことです)。これらのモデルは、生成されてしまった問題のせいでローカルのエージェント的コーディングには役に立たないと判断したため、ベンチマーク結果には一切含めていません :P これは何? AdamBench は、シンプルなローカルのエージェント的コーディング手順の中で、モデルの使いやすさを測ることを目的としています。この指標は、モデルの解答の品質スコアに、反復回数(イテレーション数)と、ベンチマークを解くのに要した時間を統合して合成します。 TOP 10(比較のために、API経由でベンチマークしたいくつかのモデルを含む) TOP 10(AdamBench スコアによる、ローカルモデルのみ) 選定したローカルモデルにおける、スコア対 AdamBench ですので、ベンチマークが載っている私のリポジトリをぜひ確認してほしいです。README には、測定した指標のすべてに加えて、追加の可視化、そして AdamBench v2 で改善できる点についての自分の見解やアイデアも含めています。 https://github.com/tabupl/AdamBench 重要なインサイト:
加えて、私個人の選び方: 私の TOP 1 のデイリードライバー:Qwen3.5 35b A3b(良い速度と品質で、サイズの都合により必要なら長いコンテキストに余裕を残せます) より複雑なタスクの場合:Qwen3.5 122b A10b は間違いなく、そして gpt-oss-120b も検討に値します。ずっと高速だからです(TPS と、より良いトークン管理のため)。 シンプルなタスク/素早い反復の場合:Qwen3.5 9b か OmniCoder 9b を使いたいと思っていましたが……考えた結果、ここでの私にとっては gpt-oss-20b が最適だと感じました。とにかく速い(170 tps 生成、確かに!)、トークン管理がとても優れていて、そして単純に動作が良いです。 では、私がテストしたすべてのローカルモデルの中から自分用に3つだけ残すとしたら、次の通りです:
なお別件ですが、私はもう Nemotron には二度と触れたくありません。信じられないほど非効率だからです(Nemotron 3 Nano は、聖なる 300k 出力トークンを出してくるのを見てください。しかもそのほとんどが推論で、「Snake」を直せないままです)。 もっと情報が必要なら、実際の結果(含まれています)を確認することもできますし、詳細な手法、そして各レビュアーがプロジェクトをどのようにレビューしたのかが気になるなら(すべての review ファイルも含まれています)→ リポジトリを見てください。 [link] [comments] |
AdamBench - エージェント型コーディング向けローカルLLMのベンチマーク(RTX5080 16GB + 64GB RAM上で)
Reddit r/LocalLLaMA / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AdamBenchは、解決の質、イテレーション回数、解決までの時間を1つのスコアに統合することで、シンプルなエージェント型コーディングのワークフローにおいてローカルLLMがどれだけ実用的かを測定するためのベンチマークです。
- 著者は、AdamBenchのGitHubリポジトリに、完全な手法(メソドロジー)、可視化、再現可能なベンチマーク用素材(プロンプトファイルとワークフロー)を公開しており、他者が同一条件下でモデルをテストし比較できるようにしています。
- 結果には、ローカルでテストされたモデルの「Top 10」ランキングが含まれるほか、ローカル性能との比較のためにAPIベンチマーク済みの追加モデルも掲載されています。
- このベンチマークでは、ツール呼び出しやチャットテンプレートの問題によって直ちに失敗する一部のモデルを明示的に除外しており、v2の反復に向けて追加したい新しいモデルの提案と、手法改善の提案を著者が歓迎しています。
広告
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)
