Qwen 3.6 35 UD 2 K_XL が実力以上に健闘している：量子化でも侮れない（GPU不足の人はいない）

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditの投稿者が、Qwen 3.6 UD 2 K_XL（Qwen 35B）のUnslothモデルを「論文→Webアプリ」タスクで検証した結果、非常に良い性能だと報告しています。
58回のツール呼び出しを98.3%の成功率で処理でき、16GB VRAMのノートPC上でllama.cppを使って大きなコンテキストも扱えたと主張しています。
さらに、提示された論文からアプリを構築する過程で約270万トークンを処理したと述べています。
併せて、llama-serverでの実行手順（例：コンテキスト長90,000の設定）や「research-webapp-skill」に関連するリンクも共有されています。

Qwen 3.6 35 UD 2 K_XL is pulling beyond its weight and quantization (No one is GPU Poor now)

こんにちは、皆さん。

また戻ってきました。私は同じ論文からWebアプリタスク用に、Qwen 3.6 UD 2 K_XL Unslothモデルをテストしました。モデルの性能はとても良好です。すべてのツール呼び出しを適切に処理でき、さらにノートPCの16GB VRAM環境で llama.cpp を使って大きなコンテキストも管理できました。

詳細はすべて添付しました
合計 ツール呼び出しは58回、
成功率は98.3% でした。
また、与えられた論文からアプリを作成する際に 約270万トークン を処理しました。

このモデルは、Qwen 35Bモデルで私が以前作成したのと同じスキルを使ってテストできます
statisticalplumber/research-webapp-skill

u/echo off title Llama Server - Gemma 4 :: Set the model path set MODEL_PATH=C:\Users\test\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-Q2_K_XL.gguf echo Starting Llama Server... echo Model: %MODEL_PATH% llama-server.exe -m "%MODEL_PATH%" --chat-template-kwargs "{
  
&query;  enable_thinking

  
  : false

}
" --jinja -fit on -c 90000 -b 4096 -ub 1024 --reasoning off --presence-penalty 1.5 --repeat-penalty 1.0 --temp 0.6 --top-p 0.95 --min-p 0.0 --top-k 20 --context-shift --keep 1024 -np 1 if %ERRORLEVEL% NEQ 0 ( echo. echo [ERROR] Llama server exited with error code %ERRORLEVEL% pause )

submitted by /u/dreamai87
[link] [comments]