| まず、画像に写っている内容で何が起きているのかを少し説明します。 私は、新しいQwenの速度に対して speculative decoding を使うことでどれくらい改善が出るのかを見極めることを目的に、小さな実験をしました(TL;DR すごい!)。
最後の画像は、完成した美しい水槽です。同程度のサイズの古いモデルや、さらにずっと大きい多くのモデルと比べても、見た目と機能性のレベルが別次元です。 セッション中の速度は 13.60 > 25.53 > 68.35 > 136.75 t/s と上がっていきます。毎回 Qwen が完成したコード一式を返していました。この種のワークフローは、私がとても頻繁に使っているものです。そしてこれらすべてが、 llama-server コマンドのたった1行のおかげです。 ' これが最適な設定かどうかは分かりませんが、私の環境ではうまく機能します。もう少し調整してみます。 私の llama-swap コマンド: 私の Linux PC は VRAM 40GB(rtx3090 と rtx4060ti)で、DDR5 RAM は 128GB です。 llamacpp に貢献しているすべての賢い人たち、この Reddit コミュニティ、そして Qwen チームに大きな感謝を。 ただ飯、試してみてください…… 編集: 追記。2日前の llama.cpp の変更について、いくつか触れるのを忘れていました。なのでアップデートを試してください。 [link] [comments] |
Qwen-3.6-27B、llama.cpp、スペキュレイティブ・デコーディングへの感謝投稿
Reddit r/LocalLLaMA / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- 著者は、llama.cpp上でQwen-3.6-27Bを使い、生成速度を比較する実験を説明しており、プログラムの改良に応じて大きな改善が見られたとしています。
- セッション内のトークン生成速度は13.60 t/sから25.53 t/s、さらに68.35 t/s、最終的に136.75 t/sまで向上しました。
- スピード向上の要因として、llama-serverのスペキュレイティブ・デコーディング設定(ngram方式のスペキュレーションとパラメータ調整)を挙げています。
- ワークフロー面の利点として、ブラウザのコンソールを開いたスクリーンショットを提示するとQwenがバグを検知して修正を手助けできた点も述べています。
- 設定が最適とは限らないものの、llama.cppを更新してスペキュレイティブ・デコーディングを試すことでローカル環境でも実用的な大幅な高速化が得られると結論づけています。




