Omnicoder-9b SLAPS in Opencode

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

OmniCoder-9B-GGUFが8GBのVRAMシステム上でQ4_k_m GGUF経由のOpencodeを使用して実行され、約40tpsの高速なプロンプトスループットを提供し、再現用の具体的なコマンドと設定が共有されている。
投稿はオープンソースモデルを、CopilotとGoogleのプレミアム価格設定を挙げつつ、専用サービスのクオータと価格上昇に対するコスト効果の高い代替手段として位置づけている。
完全なプロンプト再処理を引き起こす可能性のあるバグが指摘され、著者はOpencode設定とllama-serverコマンドを含む再現セットアップを提供して、他の人がテストできるようにしている。
著者は、q5_ksのような64kコンテキストを持つ高コンテキストのバリアントでも同等の速度を維持できることを観察し、MOEsはより良い可能性があるがトレードオフ次第で遅くなる可能性があると示唆している。

反重力と GitHub Copilot が現在重い割当制限を課しているのを見て、少し落ち込んでいました。内心、これは“エンシット化”と価格高騰の始まりではないかと脅威を感じていました。Googleは250ドルの支払いを求めており、支払わなければ彼らのプレミアムモデルを味見するだけになる、ということです。

私はVRAMが8GBしかなく、通常はエージェント的なコーディングを高速で動かせる有能なオープンソースモデルを動かすことができません。私はqwen3.5-9bをいじっていて、今日Opus traces上のqwen3.5-9bの重いファインチューニングの投稿を見つけ、試してみてからひどいパフォーマンスと遅さについて愚痴をこぼそうと思っていましたが、なんてこった…

https://huggingface.co/Tesslate/OmniCoder-9B

私は100kのコンテキストでik_llamaを使ってQ4_km ggufを実行し、その後Opencodeでテストするようにセットアップしましたが、テストタスクを難なく完了し、信じられないほど速かったです。40TPS以上を叩き出しており、ppのスピードも悪くありませんでした。

これを使って実行しました

ik_llama.cpp\\build\\bin\\Release\\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0

信じられないほどの速さとパフォーマンスを得ています。同じ速度を出すには、64000コンテキストのq5_ksも使えます。

ただし、完全なプロンプトの再処理を引き起こす可能性のあるバグがあり、それをどう修正するかを模索しています。

以下はこの用途に使用したOpencodeの設定です：

 'local': { 'models': { '/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf': { 'interleaved': { 'field': 'reasoning_content' }, 'limit': { 'context': 100000, 'output': 32000 }, 'name': 'omnicoder-9b-q4_k_m', 'reasoning': true, 'temperature': true, 'tool_call': true } }, 'npm': '@ai-sdk/openai-compatible', 'options': { 'baseURL': 'http://localhost:8080/v1' } },

8GBのVRAMに苦労している人はこれを試してみてください。MOEsは良いかもしれませんが、速度はとても遅いです。

投稿者 /u/True_Requirement_891
[リンク] [コメント]

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Omnicoder-9b SLAPS in Opencode

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供