Qwen 3.5 35B での経験

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は Nemotron Nano 30BA3 と GLM 4.7 Flash を、堅牢で信頼性の高いローカルモデルとして挙げ、それらのおかげで初めて自信を持ってタスクを完了できるようになった。
Qwen 3.5 35B は、より大きな文脈でも安定した速度を維持し、以前ははるかに大きなモデル（例：oss120B）を必要とした複雑な設定を処理できるほど賢いと説明されている。
改善にもかかわらず、35B は長い文脈でのコーディング場面で制限を示し、変更を適用すべき場所が非常に明確でないと、コードを誤った位置に挿入することがある。
この記事には、Qwen のさまざまなバリアントや関連モデル間のトレードオフを示す、量子化、速度、コンテキスト窓、視覚サポート、プロンプト処理などの比較表が含まれている。
著者は、エージェント的なタスクやコーディングにおいて、Qwen 3.5 35B の品質向上が速度とのトレードオフを正当化するかどうかについてコミュニティの意見を求め、他のモデルの選択肢や経験も求めている。

この数か月間、以下の優れたローカルモデルを入手しました:

Nemotron Nano 30BA3
GLM 4.7 Flash

どちらもこれまでのモデルと比較して非常に優れており、これらの2つのおかげで初めて安定して作業をこなせるようになりました（つまり、タスクを見てうん、これらはそれを実行できるだろうと思えるようになりました）

しかしその後Qwen 35Bが登場しました。全体的に賢く、コンテキストが大きくなっても速度は低下せず、他の2つが苦労する点をQwen 3.5Bは楽にこなしました（ここで言及しているタスクは、非常に似た3つのドメインにまたがる何百ものサービスを含む非常に大きなホームページ設定を与え、それらを機械名で分類するよう求めたものです。名前は非常に混乱していました）その作業を完了するにはOSS120Bを取り出さざるを得ませんでした）

さらなるテストを重ねるうちに、35Bには特定のタスクというより、80kのコンテキストの後にコードの特定の行を追加してほしいと依頼したとき、モデルはそれを追加するが、場所を間違えてしまう小さな点が多く積み重ねていくことに気づきました。今回の場合、私が与えた指示が明確でなく、変更をどこに入れるべきかを正確には伝えませんでした（不公平な比較ですが、同じ指示をSOTAモデルに与えれば毎回正しくできただろう）彼らにはそれが分かっているだけです

これがこれまでの私の経験です。

この点を踏まえて、皆さんの経験について伺いたいのですが、どの程度顕著な改善が見られると思いますか。

モデル	量子化	速度 (t/秒)	コンテキスト窓	視覚サポート	プロンプト処理
Qwen 3.5 35B	Q8	115	262k	Yes (mmproj)	6000 t/秒
Qwen 3.5 27B	Q8	28	262k	Yes (mmproj)	2500 t/秒
Qwen 3.5 122B	Q4_XS	37	110k	いいえ	280-300 t/秒
Qwen 3 Coder	mxfp4	120k	いいえ	95 t/秒