単一のRTX 3090でQwen3.6-27Bを動かす件について、以前の投稿に続きます(~125Kコンテキスト、高いTPS)。
ツール・エージェントのワークロードに向けて、コンテキスト長と安定性の両方をさらに押し進めています。
現在の結果:
- ~218Kコンテキスト @ ~50 / 66 TPS(テキスト、narr/code)
- ~198K + 画像 @ ~51 / 68 TPS
- ツール呼び出しで~25Kトークンの出力になっても、いまはOOMなしで完了
つまり、以前の設定よりTPSは低いものの、実運用のワークロードにおけるコンテキスト量と安定性は大幅に向上しています。
---
### 何が変わったか
以前は、長いツール出力(~25Kトークン)が一貫してクラッシュしていました。
原因は、メモリ問題を軽減するはずだったGenesisパッチ(PN12)に関連していることが判明しましたが、vLLM dev205+では実際には適用されていませんでした:
- `apply_all` は成功を報告
- しかし、基盤となるコードパスは変更されていなかった
根本原因は、パッチ内でのアンカーのドリフトでした。
これを修正した後、ツールのプリフィルによるOOMが消え、より高いコンテキスト設定が使えるようになりました。
修正:
https://github.com/Sandermage/genesis-vllm-patches(PR #13)
---
### 私たちが最適化していること
ここでの目標は、TPS最大化やコンテキスト最大化を単独で追い求めることではなく、単一の3090で両方を同時に押し上げることです:
- 高いコンテキスト(200K+)
- 実用的なスループット
- 安定したツール・エージェントのワークロード
---
### 追記 / 制限
- まだ別のメモリの崖があり、1 GPUで単一プロンプトのワークロードだと~50〜60Kあたりで発生します
- これはテンソル並列(例: 2× 3090)では適用されません
- 結果は量子化と設定に大きく依存します
---
### 再現手順
https://github.com/noonghunna/club-3090
---
3090/4090環境で、他の人たちはコンテキストとTPSのバランスをどう取っているのか気になります。
[link] [comments]



