反重力と GitHub Copilot が現在重い割当制限を課しているのを見て、少し落ち込んでいました。内心、これは“エンシット化”と価格高騰の始まりではないかと脅威を感じていました。Googleは250ドルの支払いを求めており、支払わなければ彼らのプレミアムモデルを味見するだけになる、ということです。
私はVRAMが8GBしかなく、通常はエージェント的なコーディングを高速で動かせる有能なオープンソースモデルを動かすことができません。私はqwen3.5-9bをいじっていて、今日Opus traces上のqwen3.5-9bの重いファインチューニングの投稿を見つけ、試してみてからひどいパフォーマンスと遅さについて愚痴をこぼそうと思っていましたが、なんてこった…
https://huggingface.co/Tesslate/OmniCoder-9B
私は100kのコンテキストでik_llamaを使ってQ4_km ggufを実行し、その後Opencodeでテストするようにセットアップしましたが、テストタスクを難なく完了し、信じられないほど速かったです。40TPS以上を叩き出しており、ppのスピードも悪くありませんでした。
これを使って実行しました
ik_llama.cpp\\build\\bin\\Release\\llama-server.exe -m models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf -ngl 999 -fa 1 -b 2048 -ub 512 -t 8 -c 100000 -ctk f16 -ctv q4_0 --temp 0.4 --top-p 0.95 --top-k 20 --presence-penalty 0.0 --jinja --ctx-checkpoints 0 信じられないほどの速さとパフォーマンスを得ています。同じ速度を出すには、64000コンテキストのq5_ksも使えます。
ただし、完全なプロンプトの再処理を引き起こす可能性のあるバグがあり、それをどう修正するかを模索しています。
以下はこの用途に使用したOpencodeの設定です:
'local': { 'models': { '/models/Tesslate/OmniCoder-9B-GGUF/omnicoder-9b-q4_k_m.gguf': { 'interleaved': { 'field': 'reasoning_content' }, 'limit': { 'context': 100000, 'output': 32000 }, 'name': 'omnicoder-9b-q4_k_m', 'reasoning': true, 'temperature': true, 'tool_call': true } }, 'npm': '@ai-sdk/openai-compatible', 'options': { 'baseURL': 'http://localhost:8080/v1' } }, 8GBのVRAMに苦労している人はこれを試してみてください。MOEsは良いかもしれませんが、速度はとても遅いです。
[リンク] [コメント]