追記:1× RTX 3090でのQwen3.6-27B、約218Kコンテキスト+約50〜66TPSへ(ツールコールはPN12修正で安定化)

Reddit r/LocalLLaMA / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者らは、単一のRTX 3090でQwen3.6-27Bを動かす際の改善として、テキストおよびnarr/codeワークロードで約218Kのコンテキストとおおよそ50〜66TPSを達成したと報告している。
  • ビジョンを追加しても同程度のスループット(約51〜68TPS、コンテキストは約198K+ビジョン)を維持でき、長いツール呼び出し出力(約25Kトークン)がOOM(メモリ不足)なしで完了するようになった。
  • 以前の構成よりTPSは低いものの、実運用のツールエージェント環境ではコンテキスト長と安定性が大幅に向上するという。
  • 以前のクラッシュはGenesisのパッチ(PN12)がvLLM dev205+上で実際には反映されていなかったこと(“anchor drift”によるもの)に起因するとされ、Genesis-vLLMパッチ(PR #13)として修正が提示されている。
  • なお、単一GPUでのシングルプロンプトでは50〜60K付近に残る別のメモリの壁があり、量子化や設定に強く依存すること、また2×3090のようなテンソル並列化ではその壁が緩和されると注記されている。

単一のRTX 3090でQwen3.6-27Bを動かす件について、以前の投稿に続きます(~125Kコンテキスト、高いTPS)。

ツール・エージェントのワークロードに向けて、コンテキスト長と安定性の両方をさらに押し進めています。

現在の結果:

- ~218Kコンテキスト @ ~50 / 66 TPS(テキスト、narr/code)

- ~198K + 画像 @ ~51 / 68 TPS

- ツール呼び出しで~25Kトークンの出力になっても、いまはOOMなしで完了

つまり、以前の設定よりTPSは低いものの、実運用のワークロードにおけるコンテキスト量と安定性は大幅に向上しています。

---

### 何が変わったか

以前は、長いツール出力(~25Kトークン)が一貫してクラッシュしていました。

原因は、メモリ問題を軽減するはずだったGenesisパッチ(PN12)に関連していることが判明しましたが、vLLM dev205+では実際には適用されていませんでした:

- `apply_all` は成功を報告

- しかし、基盤となるコードパスは変更されていなかった

根本原因は、パッチ内でのアンカーのドリフトでした。

これを修正した後、ツールのプリフィルによるOOMが消え、より高いコンテキスト設定が使えるようになりました。

修正:

https://github.com/Sandermage/genesis-vllm-patches(PR #13)

---

### 私たちが最適化していること

ここでの目標は、TPS最大化やコンテキスト最大化を単独で追い求めることではなく、単一の3090で両方を同時に押し上げることです:

- 高いコンテキスト(200K+)

- 実用的なスループット

- 安定したツール・エージェントのワークロード

---

### 追記 / 制限

- まだ別のメモリの崖があり、1 GPUで単一プロンプトのワークロードだと~50〜60Kあたりで発生します

- これはテンソル並列(例: 2× 3090)では適用されません

- 結果は量子化と設定に大きく依存します

---

### 再現手順

https://github.com/noonghunna/club-3090

---

3090/4090環境で、他の人たちはコンテキストとTPSのバランスをどう取っているのか気になります。

submitted by /u/AmazingDrivers4u
[link] [comments]