AI Navigate

Qwen 3.5 35B での経験

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者は Nemotron Nano 30BA3 と GLM 4.7 Flash を、堅牢で信頼性の高いローカルモデルとして挙げ、それらのおかげで初めて自信を持ってタスクを完了できるようになった。
  • Qwen 3.5 35B は、より大きな文脈でも安定した速度を維持し、以前ははるかに大きなモデル(例:oss120B)を必要とした複雑な設定を処理できるほど賢いと説明されている。
  • 改善にもかかわらず、35B は長い文脈でのコーディング場面で制限を示し、変更を適用すべき場所が非常に明確でないと、コードを誤った位置に挿入することがある。
  • この記事には、Qwen のさまざまなバリアントや関連モデル間のトレードオフを示す、量子化、速度、コンテキスト窓、視覚サポート、プロンプト処理などの比較表が含まれている。
  • 著者は、エージェント的なタスクやコーディングにおいて、Qwen 3.5 35B の品質向上が速度とのトレードオフを正当化するかどうかについてコミュニティの意見を求め、他のモデルの選択肢や経験も求めている。

この数か月間、以下の優れたローカルモデルを入手しました:

  • Nemotron Nano 30BA3
  • GLM 4.7 Flash

どちらもこれまでのモデルと比較して非常に優れており、これらの2つのおかげで初めて安定して作業をこなせるようになりました(つまり、タスクを見てうん、これらはそれを実行できるだろうと思えるようになりました)

しかしその後Qwen 35Bが登場しました。全体的に賢く、コンテキストが大きくなっても速度は低下せず、他の2つが苦労する点をQwen 3.5Bは楽にこなしました(ここで言及しているタスクは、非常に似た3つのドメインにまたがる何百ものサービスを含む非常に大きなホームページ設定を与え、それらを機械名で分類するよう求めたものです。名前は非常に混乱していました)その作業を完了するにはOSS120Bを取り出さざるを得ませんでした)

さらなるテストを重ねるうちに、35Bには特定のタスクというより、80kのコンテキストの後にコードの特定の行を追加してほしいと依頼したとき、モデルはそれを追加するが、場所を間違えてしまう小さな点が多く積み重ねていくことに気づきました。今回の場合、私が与えた指示が明確でなく、変更をどこに入れるべきかを正確には伝えませんでした(不公平な比較ですが、同じ指示をSOTAモデルに与えれば毎回正しくできただろう)彼らにはそれが分かっているだけです

これがこれまでの私の経験です。

この点を踏まえて、皆さんの経験について伺いたいのですが、どの程度顕著な改善が見られると思いますか。

モデル 量子化 速度 (t/秒) コンテキスト窓 視覚サポート プロンプト処理
Qwen 3.5 35B Q8 115 262k Yes (mmproj) 6000 t/秒
Qwen 3.5 27B Q8 28 262k Yes (mmproj) 2500 t/秒
Qwen 3.5 122B Q4_XS 37 110k いいえ 280-300 t/秒
Qwen 3 Coder mxfp4 120k いいえ 95 t/秒
  • qwen3.5 27B Q8
  • Qwen3 coder next 80B MXFP4
  • Qwen3.5 coder next 120B Q4_XS

もしこれらのモデルをエージェント的な用途やコーディングに広く使ったことがある方がいれば、経験はどうでしたか!! 彼らが提供する品質の利点は、速度のトレードオフを上回ると思いますか。

他の一般的なアドバイスや、試して有用だと感じた他のモデルの選択肢があれば教えてください。

注: 私は48GBのVRAMを搭載したリグを持っています

投稿者 /u/viperx7
[リンク] [コメント]