Omnicoder-9b SLAPS in Opencode

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • OmniCoder-9B-GGUFが8GBのVRAMシステム上でQ4_k_m GGUF経由のOpencodeを使用して実行され、約40tpsの高速なプロンプトスループットを提供し、再現用の具体的なコマンドと設定が共有されている。
  • 投稿はオープンソースモデルを、CopilotとGoogleのプレミアム価格設定を挙げつつ、専用サービスのクオータと価格上昇に対するコスト効果の高い代替手段として位置づけている。
  • 完全なプロンプト再処理を引き起こす可能性のあるバグが指摘され、著者はOpencode設定とllama-serverコマンドを含む再現セットアップを提供して、他の人がテストできるようにしている。
  • 著者は、q5_ksのような64kコンテキストを持つ高コンテキストのバリアントでも同等の速度を維持できることを観察し、MOEsはより良い可能性があるがトレードオフ次第で遅くなる可能性があると示唆している。

反重力と GitHub Copilot が現在重い割当制限を課しているのを見て、少し落ち込んでいました。内心、これは“エンシット化”と価格高騰の始まりではないかと脅威を感じていました。Googleは250ドルの支払いを求めており、支払わなければ彼らのプレミアムモデルを味見するだけになる、ということです。

私はVRAMが8GBしかなく、通常はエージェント的なコーディングを高速で動かせる有能なオープンソースモデルを動かすことができません。私はqwen3.5-9bをいじっていて、今日Opus traces上のqwen3.5-9bの重いファインチューニングの投稿を見つけ、試してみてからひどいパフォーマンスと遅さについて愚痴をこぼそうと思っていましたが、なんてこった…

https://huggingface.co/Tesslate/OmniCoder-9B

私は100kのコンテキストでik_llamaを使ってQ4_km ggufを実行し、その後Opencodeでテストするようにセットアップしましたが、テストタスクを難なく完了し、信じられないほど速かったです。40TPS以上を叩き出しており、ppのスピードも悪くありませんでした。

これを使って実行しました

ik_llama.cpp\\build\\bin\\Release\\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0 

信じられないほどの速さとパフォーマンスを得ています。同じ速度を出すには、64000コンテキストのq5_ksも使えます。

ただし、完全なプロンプトの再処理を引き起こす可能性のあるバグがあり、それをどう修正するかを模索しています。

以下はこの用途に使用したOpencodeの設定です:

 'local': { 'models': { '/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf': { 'interleaved': { 'field': 'reasoning_content' }, 'limit': { 'context': 100000, 'output': 32000 }, 'name': 'omnicoder-9b-q4_k_m', 'reasoning': true, 'temperature': true, 'tool_call': true } }, 'npm': '@ai-sdk/openai-compatible', 'options': { 'baseURL': 'http://localhost:8080/v1' } },

8GBのVRAMに苦労している人はこれを試してみてください。MOEsは良いかもしれませんが、速度はとても遅いです。

投稿者 /u/True_Requirement_891
[リンク] [コメント]