この数か月間、以下の優れたローカルモデルを入手しました:
- Nemotron Nano 30BA3
- GLM 4.7 Flash
どちらもこれまでのモデルと比較して非常に優れており、これらの2つのおかげで初めて安定して作業をこなせるようになりました(つまり、タスクを見てうん、これらはそれを実行できるだろうと思えるようになりました)
しかしその後Qwen 35Bが登場しました。全体的に賢く、コンテキストが大きくなっても速度は低下せず、他の2つが苦労する点をQwen 3.5Bは楽にこなしました(ここで言及しているタスクは、非常に似た3つのドメインにまたがる何百ものサービスを含む非常に大きなホームページ設定を与え、それらを機械名で分類するよう求めたものです。名前は非常に混乱していました)その作業を完了するにはOSS120Bを取り出さざるを得ませんでした)
さらなるテストを重ねるうちに、35Bには特定のタスクというより、80kのコンテキストの後にコードの特定の行を追加してほしいと依頼したとき、モデルはそれを追加するが、場所を間違えてしまう小さな点が多く積み重ねていくことに気づきました。今回の場合、私が与えた指示が明確でなく、変更をどこに入れるべきかを正確には伝えませんでした(不公平な比較ですが、同じ指示をSOTAモデルに与えれば毎回正しくできただろう)彼らにはそれが分かっているだけです
これがこれまでの私の経験です。
この点を踏まえて、皆さんの経験について伺いたいのですが、どの程度顕著な改善が見られると思いますか。
| モデル | 量子化 | 速度 (t/秒) | コンテキスト窓 | 視覚サポート | プロンプト処理 |
|---|---|---|---|---|---|
| Qwen 3.5 35B | Q8 | 115 | 262k | Yes (mmproj) | 6000 t/秒 |
| Qwen 3.5 27B | Q8 | 28 | 262k | Yes (mmproj) | 2500 t/秒 |
| Qwen 3.5 122B | Q4_XS | 37 | 110k | いいえ | 280-300 t/秒 |
| Qwen 3 Coder | mxfp4 | 120k | いいえ | 95 t/秒 |
- qwen3.5 27B Q8
- Qwen3 coder next 80B MXFP4
- Qwen3.5 coder next 120B Q4_XS
もしこれらのモデルをエージェント的な用途やコーディングに広く使ったことがある方がいれば、経験はどうでしたか!! 彼らが提供する品質の利点は、速度のトレードオフを上回ると思いますか。
他の一般的なアドバイスや、試して有用だと感じた他のモデルの選択肢があれば教えてください。
注: 私は48GBのVRAMを搭載したリグを持っています
[リンク] [コメント]



