コーディング用途でのQwen 3.5 28B A3B REAPの初期印象

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーが、Qwen 3.5 28B A3B REAPコーディングモデルに関する初期の手触り感(ハンズオンの印象)を共有し、量子化したHugging Face系バリアントと比較しつつ、Haswell世代のi7(メモリ32GB)での実CPUスループットを報告しています。
  • ユーザーの環境では、Qwen 3.5 28B A3B REAPのGGUFが約~7.5 tokens/sec(Q4_K_M)で動作するとのことです。マルチターンのプロンプトスレッドでは、コンテキスト長が伸びるにつれて顕著に速度が落ちます。
  • llama.cpp上ではモデルがやや冗長に見え、「最終回答」を出す前に詳細な「thinking/planning(思考/計画)」ステップを生成するようです。また、関連する懸念点に言及することも多く、ドキュメンテーション作業に役立つとされています。
  • 著者は、実用的なコーディング支援(適切に整形されたMarkdownドキュメントの生成を含む)や、概ね良好なコード提案がある一方で、複雑なリファクタリングでは限界も指摘しています。特に、複数ファイル/構造的な変更が必要な場合、フォローアップを繰り返すことになる場合があります。
  • 難しいシェルスクリプトのリファクタリング課題(バグ修正に加えて、変更後のJSONデータ構造への適応)では、最終的に動作するリファクタリングコードを出力しますが、最初は必要な更新を見落とすことがあり、新しいデータ形式にロジックを完全に整合させるには2回目の実行が必要になる可能性があります。

こちらは
https://www.reddit.com/r/LocalLLaMA/comments/1sf8zp8/qwen_3_coder_30b_is_quite_impressive_for_coding/ へのフォローアップです。

私の見た範囲のコメントからすると、私がレビューしたQwen 3.5(およびGemma 4)は、一般公開のために発表されたモデルの中でも最高クラスに位置づけられているようです。

HFにある元のモデルはこちらです:
https://huggingface.co/collections/Qwen/qwen35
unslothがさまざまな量子化(quant)を提供しています
https://huggingface.co/collections/unsloth/qwen35

私が試したモデルの中では、私の環境(普通のHaswell i7 CPU、メモリ32GB)では、すべてQ4_K_Mの量子化です。
unsloth/Qwen3.5-27B-GGUF 0.95 tokens / s
unsloth/Qwen3.5-35B-A3B-GGUF 4 tokens / s
https://huggingface.co/barozp/Qwen-3.5-28B-A3B-REAP-GGUF

barozp/Qwen-3.5-28B-A3B-REAP-GGUF 7.5 tokens / s

tokens / s はコンテキストが大きくなるほど低下します。たとえば、同じコンテキスト/スレッド内でプロンプトを追記していくときです。7.5から徐々に1 tok/sまで落ちることもありました。

私が使ったのは Qwen-3.5-28B-A3B-REAP-GGUF です。これは、私の環境でほぼ必要十分なスループット(7.5 t/s)を出せる「小さめ」のサイズだからです。

---
率直な印象としては、Qwen 3.5は関連する懸念点/参照に触れることが多く、llama.cppでは実際の応答に切り替える前に、かなり詳しい「思考」/計画ステップを挟みます。

関連する話題への言及があることで、良いドキュメント作成役になります。実際に私は、これにシェルスクリプトのコードを解析させ、使用方法のドキュメントを作らせました。かなりうまく、整った .md 形式で仕上げてくれます。

コード提案も良好(場合によってはまあまあ)ですが、私がいつもLLMにやらせたいと思っている、特に面白い「難しい」こととしては、おそらく、これらの小規模LLMに *コードをリファクタリング* させることです。

私はこれに、シェルスクリプトをリファクタリングさせ、いくつかのバグを直し、データの構造変更(たとえばデータのJSON形式)にも適応させました。これは、このような「小さめ」のLLMにとってはかなり複雑なタスクだと思います。確かに「思考」フェーズでいくつかの > 10kトークンを使いますが、最終的にはリファクタリングされたコードで戻ってきます。このLLMは、依存関係/課題を考慮しながら(同じ)論点に繰り返し当たっていくような「慎重さ」があるのだと思います。たとえば「wait ... `」のような部分を巡ってです。出来上がったコードは「最高のリファクタリング」ではないと思いますが、私のプロンプトの要件にできるだけ忠実に従おうとしていたのだろうと推測しています。

その中には再帰的な提案もあります。つまり、まずデータのJSON構造をリファクタリングし、その次に、リファクタリングされた新しいデータ構造を扱うためにシェルスクリプトをリファクタリングします。JSONデータ構造のリファクタリングはできていますが、新しい構造に対応するようにシェルスクリプトの更新が抜けています。新しいデータ構造と、それに対応するスクリプトについて、2回目の実行を行うと検討対象になります。
また、プロンプトが「曖昧すぎる」と、「思考」フェーズでその曖昧さを解消しようとしてループに入ることがあります。実際に「思考」フェーズでそういう挙動が見られました。私は、推論(inference)を止めて、プロンプトをより具体的に組み直す必要があることが多く、その調整が解決に繋がります。

submitted by /u/ag789
[link] [comments]