| ハードウェア: AMD Strix Halo (Ryzen AI MAX+ 395), 128GB RAM, 96GB共有VRAM, Vulkan/RADV, llama-server(kyuz0 Dockerイメージ) 簡単な免責事項: 私はML研究者でも科学者でもありません。テックの仕事をしていてかなり技術的ではありますが、これは純粋に趣味のプロジェクトです。方法論は学術的な基準で厳密なものではありません。単に自分の用途に対してどのモデルが最適かを知りたかっただけです。Qwenについていくつか初期結果を投稿したところ、他の人から「自分の用途に関する具体的なテスト内容ももっと投稿してほしい」と言われました。 TL;DR: 私のホームラボでは、非同期タスクのためにローカルLLMを動かしています。汎用のベンチマークはモデル選びに役立たなかったので、私が実際にLLMにやらせていることを基に、独自の45テスト・スイートを書きました。6つのファミリーにまたがる19モデルをテストしました。Gemma 4 26B-A4Bが結局トップになりましたが、その前に「初回実行で壊れているように見せてしまった」2つの別々のバグを直した後でした。 なぜローカルLLMなのか、そしてなぜ自分のベンチマークが必要だったのか私はインタラクティブなコーディングと推論にはClaude(Opus)を使っています。ですが、24時間365日動いているサービスもいくつかあって、それらにはローカルモデルが必要です:
これらに「最先端品質」は必要ありません。必要なのは、速さ、信頼性、そして構造化出力をきちんとこなせることです。MMLUスコアやチャットボット・アリーナのランキングでは、「Home Assistantのオートメーションとして有効な記述を書けるか」や「Gmailを正しく分類できるか」が分かりません。なので自分でテストを書きました。 テスト・スイート12カテゴリにまたがる45テスト。各応答は、Claude Opus 4.6が完全な出力をルーブリックに照らして0〜10で採点します:
そのうち9つは「クリティカル」テストで、私の最も一般的な用途に対応しているため2倍の重みづけをしています。最大スコアは540です。 各テストには「良い回答がどのようなものか」を定義したルーブリックがあります。例えばメモリ分析テストでは、モデルが「available」メモリ(22G)が実際の空き指標であり、「free」(5.7G)ではないこと、さらにスワップ使用量はクリティカルではないことを正しく特定する必要があります。税計算テストでは、AGI、課税所得、そしてブラケット(税率段階)の計算がすべて正しいことを確認します。各モデルが全45テストを実行した後、Claude Opusが同じルーブリックを使って審査員として採点します。これにより、19モデルすべてで採点の一貫性を保てますが、当然ながらスコアは「1人の審査員の解釈」によるものになります。ルーブリックと全ての生の回答は、誰かが照合したい場合のために保存しています。 何をテストしたか6つのファミリーにまたがる19のモデル構成を、すべてVulkanでllama-server上で実行しました: Qwenファミリー:
Gemma 4:
その他:
すべて 結果品質トップ5:
Gemma 4をちゃんと動かすまでGemma 4は4月1日にリリースされました。最初に読み込んだとき、45テストのうち11件が空の応答を返しました。モデルが壊れているのだと思いました。壊れてはいませんでした。問題は2つありました。 問題1:思考モードがあなたのトークンを食い尽くす。 Gemma 4のチャットテンプレートはデフォルトで思考(thinking)を有効にします。モデルは内部ブロックですべての最大2048トークンを燃やし尽くして、何も表示せずに返していました。llama-serverの設定に 問題2:トークナイザーバグ。 llama.cppにはGemma 4のトークナイザーバグ(PR #21343、4月3日にマージ)があり、長いプロンプトで入力を静かに壊していました。更新されたDockerイメージを取り込んだ後、Gemmaのスコアは全バリアントで20〜23ポイントジャンプしました。 両方の修正がないと、Gemma 4はCoder-Nextを下回りました。両方あると、1位になりました。もしGemma 4を提供開始日に試して「なんか微妙」と感じたなら、更新されたllama.cppと、思考を無効にしてもう一度試してみてください。 量子化の比較ビット深度がどれくらい効くのか確かめるため、Gemma 4 26Bの異なる5種類の量子化(quants)をテストしました:
Coder-Nextでは、ggmlはUnslothより実際に2ポイント高くなりました。量子化器の間に「明確な万能勝者」はありません。GemmaならUnsloth、Qwenならggmlを選ぶのがよさそうですが、差は小さいので、おそらく重要ではありません。 予想外だったことMoEモデルはVulkan上での唯一の選択肢。 アクティブパラメータが3〜10Bのものはすべて、40〜60+ tok/sで動きます。9Bを超える密(dense)モデルは遅すぎて実用になりません。Qwen3.5-27B(dense)は、3月の私のテストでは6〜8 tok/sで、ほとんどのテストでタイムアウトしました。iGPUや共有VRAMのあるAPUを使っているなら、denseモデルはやめた方がいいです。 思考モードはセットアップを静かに壊す。 複数のモデルファミリー(Gemma, Qwen3.5, GPT-OSS*)は、チャットテンプレートでデフォルトのまま思考を有効にします。llama-serverを使っていて、応答が空になったり途中で切り詰められたりする場合は、サーバーログで トークナイザーバグは、量子化の選択より影響が大きい。 Gemmaのトークナイザ修正によってスコアが20ポイント以上動きました。Q4からQ8に変えるだけでは、動いたのは8〜15ポイント程度でした。特に新しいモデルアーキテクチャが出てすぐのタイミングでは、llama.cppのビルドを最新に保ってください。 GPT-OSS*はllama-server上で正しく動作しない。 harmony応答形式は、私が試した推論設定に関係なく、約25%のプロンプトで空の出力になります。120Bは概ね使えました(45件中空は3件)が、20Bはダメでした(空が12件)。誰かが直し方を見つけたなら、教えてください。 Nemotron Cascade-2が予想外だった。 62 tok/s、417/540、VRAM 24G、クラッシュなし。3月にはNemotron-3-Superは、20件の連続リクエストの後にクラッシュしていました。Cascade-2は45件すべてのテストをきれいに通しました。Vulkan上のMamba-2ハイブリッドは、ようやく安定したようです。 今動かしているものCoder-Nextから切り替え:
Q8とIQ3で合計37G、私の96G GTTを使います。残りは59Gで、KVキャッシュに充てられます。これは、これまでのどの構成よりも余裕があります。 手法
[link] [comments] |
自宅ラボのユースケースまわりでの45テスト・ベンチマークと、Strix Halo上でローカルLLM 19本(Gemma 4およびQwen 3.5を含む)を評価
Reddit r/LocalLLaMA / 2026/4/4
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 著者は、自身の自宅ラボのワークフロー(メール分類、ビジョンベースのカメラ警告の説明作成、献立(食事)計画、ファイナンス分析、Home AssistantのオートメーションYAML生成)に合わせてカスタムの45テスト・ベンチマークを構築した。これは、標準的な公開ベンチマークでは、これらの用途に対する信頼性や、構造化された出力品質を予測できなかったため。
- AMD Strix Halo(Ryzen AI MAX+ 395)に128GBメモリを搭載し、llama-serverのDockerイメージを用いてVulkan/RADV環境で6つのモデルファミリーに属する19種類のローカルLLMを評価した。
- ベンチマークでは、Claude Opus 4.6に各応答の全文をルーブリックに照らして採点させ、0〜10のスコアを付与する。ルーブリックは、コーディング、自宅ラボの運用/デバッグ、ツール呼び出しタスクなど12カテゴリにまたがる。
- 著者が最初にモデルが壊れているように見えてしまった原因となる2つの別々のバグを修正した結果、Gemma 4 26B-A4Bが最高順位となった。これは、テスト実装上の問題が比較結果を歪めうることを示している。
- この手法は学術的に厳密というより「趣味レベル」であることを明示しつつも、特定の繰り返し発生するオートメーション作業において、どのローカル・モデルが最適かを実務的に判断することを目的としている。




