自己ホスト型LLMでOpenCodeがどのように動くかを検証:Qwen 3.5 & 3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash...

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、2つのタスクを用いて、複数の自己ホスト型LLMでOpenCodeの使いやすさと実運用に向けた準備状況をテストした。タスクは、Goで作るシンプルなIndexNow CLIと、より複雑なWebサイト移行マップの生成。
  • 評価したモデルにはQwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7 Flashが含まれ、コンテキストウィンドウはタスクとモデルによりおよそ25k〜50kの範囲だった。
  • RTX 4080(16GB VRAM)上で、llama-serverをデフォルト設定で使用したときの推論速度はモデルによってばらつきがあり、チューニング(例:メモリ/レイヤーのパラメータやその他の設定)で改善する可能性があると報告されている。
  • 結論としては、Qwen 3.5 27Bが著者の環境に特に適していることを強調し、Gemma 4 26Bについては非常に有望な結果が得られたため、さらなる検証が必要だとしている。
  • テストした2つのタスクにおいて、Qwen 3.5とGemma 4は、OpenCode Zen経由でアクセスできる特定のクラウドホスト型「無料」LLM提供サービスと同等のようだと述べられている。
Tested how OpenCode Works with SelfHosted LLMS: Qwen 3.5 & 3.6, Gemma 4, Nemotron 3, GLM-4.7 Flash...

各LLMについてOpenCodeで2つのテストを実行し、基本的な準備状況と使いやすさを確認しました:

- GolangでIndexNow CLIを作成(簡単なタスク)

- SiteStructure Strategyに従って、Webサイトの移行マップを作成(複雑なタスク)

Qwen 3.5、& 3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash、そしてその他いくつかのLLMをテストしました。

使用したコンテキストサイズ:25k-50k(タスクとモデルによって異なります)。

結果は下の表にまとめました。参考になれば幸いです。

https://preview.redd.it/gdrou1bmdjtg1.png?width=686&format=png&auto=webp&s=026c50e383957c2c526676c10a3c5f12ad705e8e

これらのセルフホストLLMの大半の速度は、RTX 4080(16GB VRAM)では以下の値でした(各モデルがどれくらい速い/遅いかの目安として)。

デフォルトのメモリおよびレイヤー設定でllama-serverを使用しました。これらを微調整すれば、速度が少し改善するかもしれません。あるいは「少し」以上に改善するかもです :)

https://preview.redd.it/fa3zqfb1ejtg1.png?width=820&format=png&auto=webp&s=deed71b62c203a605dbbcdcee560966ab5030935

---

私の所感:

Qwen 3.5 27bは、私のハードウェアにとても適した、かなり優秀なLLMです。

新しいGemma 4 26bは非常に良い結果を示しました。さらにテストする価値があります。

これら2つはいずれも、OpenCode Zenのクラウドホスト型の無料LLMと、この2つのタスクに関しては同等です。

---

各テストにおける各LLMの挙動の詳細はこちらです: https://www.glukhov.org/ai-devtools/opencode/llms-comparison/

submitted by /u/rosaccord
[リンク] [コメント]