ローカルエージェントワークフロー用の8GB VRAM上で動作する Qwen 3.5 35B

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Antigravity からローカル LLM へ転換し、ローカルエージェントワークフローのために Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF) を採用した。
セットアップには i9-14900HX を搭載した Lenovo Legion、32GB RAM、RTX 4060m（8GB VRAM）を使用している。
8GB VRAM 上で、プロンプト処理は約700トークン/秒、トークン生成は約42トークン/秒と報告しており、ngl 99、--n-cpu-moe 40、-c 192000、-t 12、-tb 16、-b 4096、--ubatch-size 2048、--flash-attn on、--cache-type-k q8_0、--cache-type-v q8_0、--mlock といったフラグを含む llama.cpp 設定を使用している。
Antigravity との比較を行い、Antigravity の Gemini 3 Flash を継続すべきかどうかの提案を求めつつ、VSCode の Cline や Plan 用の kat-coder-pro、Act モード用の qwen3.5 などの補完ツールにも言及している。

Recently I had been using Antigravity for mostly vibe coding stuff that i needed. But the limits have hit hard. (have google ai pro yearly plan)

So I pivoted to local LLMs to augment it. After extensive testing of different models I have settled on Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).

My specs are: (Lenovo Legion)

CPU: i9-14900HX (8 P-Cores, E-cores disabled in BIOS, 32GB DDR5 RAM)
GPU: RTX 4060m (8GB VRAM)

Currently I am getting about 700t/s for prompt processing and 42t/s for token generation which is respectable for my 8gb vram gpu. Here are the settings i settled upon after some testing:

Using llama cpp:

-ngl 99 ^

--n-cpu-moe 40 ^

-c 192000 ^

-t 12 ^

-tb 16 ^

-b 4096 ^

--ubatch-size 2048 ^

--flash-attn on ^

--cache-type-k q8_0 ^

--cache-type-v q8_0 ^

--mlock

After some research the closest thing to Antigravity I could find is Cline in VSCode. I use kat-coder-pro for Plan and qwen3.5 for Act mode. Is this setup better or should i stick to google gemini 3 flash in antigravity which has plenty of limits and is pretty fast? I dont care much about privacy, only about getting work done smoothly. Any suggestions for potential improvement?

Thanks.

submitted by /u/Heisenberggg03
[link] [comments]

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

ローカルエージェントワークフロー用の8GB VRAM上で動作する Qwen 3.5 35B

要点

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer