クイックスペックです。これは、時間をかけてだんだんとLocalLLaMa向けのものへと“変化”していったワークステーションです:
3950x
96GB DDR4(デュアルチャネル、3000mhzで動作)
w6800 + Rx6800(48GBのVRAMを約512GB/sで)
ほとんどのテストは約20kコンテキストで実施;kv-cacheはq8_0
ROCMでllama cppのmainブランチ
使用したモデルはUnslothのUD_IQ2_Mウェイトで、ディスク上で約122GBです。Qwen3-235B以降、Q2レベルの量子化ではうまくいかなかったので、このテストも最近の自分のテストと同様“使い捨て”になるだろうと考えていましたが、実際にはそれがかなり(かなり)良く、しかもある程度実用に足ります。
性能について: ウォームアップ(トークン生成を2〜3分)させた後、次のような結果が出ています:
約11トークン/秒(token-gen)
短いプロンプトでは約43トークン/秒のprompt-processing、長いプロンプトでは約120t/s(長いエージェント的なワークフローでPP速度を記録していないので、キャッシュの恩恵がどの程度見えるかは確認できていません)
そのprompt-processingはインタラクティブなコーディングセッションには少し下回っていますが、24/7のエージェントループではかなりのことができます。
出力の品質について: コーディングが信じられないほど上手く、コーディングおよび知識タスクでQwen3.5 27B(フル)、Qwen3.5 122B(Q4)、MiniMax M2.5(Q4)、GPT-OSS-120B(フル)、そしてGemma 4 31B(フル)に勝っています(正解度合いが異なり得る、長めの雑学質問セットを保持しています)。推論出力の中で幻覚を拾うこともできます(どんなQ2でも不可能というわけではないと思います)が、すぐに軌道修正してくれます。推論予算を使わずに遊んでみることもしましたが、幻覚を訂正できないので、推論トークンなしで使うことはおすすめしません。
この投稿の狙い: 要するに、ここ数か月の間に自分が見つけた“Q2以下”は、ほぼ全部が使い物になりませんでした。そこで、数人の人にQwen3.5-397Bを挙げて、ぜひ一度試してみてほしいと思いました。自分のシステムで動かせるモデルの中で、突然いちばん強くなっていて、あなたの環境でも良いかもしれません。
[link] [comments]




