追記：1× RTX 3090でのQwen3.6-27B、約218Kコンテキスト＋約50〜66TPSへ（ツールコールはPN12修正で安定化）

Reddit r/LocalLLaMA / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者らは、単一のRTX 3090でQwen3.6-27Bを動かす際の改善として、テキストおよびnarr/codeワークロードで約218Kのコンテキストとおおよそ50〜66TPSを達成したと報告している。
ビジョンを追加しても同程度のスループット（約51〜68TPS、コンテキストは約198K＋ビジョン）を維持でき、長いツール呼び出し出力（約25Kトークン）がOOM（メモリ不足）なしで完了するようになった。
以前の構成よりTPSは低いものの、実運用のツールエージェント環境ではコンテキスト長と安定性が大幅に向上するという。
以前のクラッシュはGenesisのパッチ（PN12）がvLLM dev205+上で実際には反映されていなかったこと（“anchor drift”によるもの）に起因するとされ、Genesis-vLLMパッチ（PR #13）として修正が提示されている。
なお、単一GPUでのシングルプロンプトでは50〜60K付近に残る別のメモリの壁があり、量子化や設定に強く依存すること、また2×3090のようなテンソル並列化ではその壁が緩和されると注記されている。

単一のRTX 3090でQwen3.6-27Bを動かす件について、以前の投稿に続きます（~125Kコンテキスト、高いTPS）。

ツール・エージェントのワークロードに向けて、コンテキスト長と安定性の両方をさらに押し進めています。

現在の結果:

- ~218Kコンテキスト @ ~50 / 66 TPS（テキスト、narr/code）

- ~198K + 画像 @ ~51 / 68 TPS

- ツール呼び出しで~25Kトークンの出力になっても、いまはOOMなしで完了

つまり、以前の設定よりTPSは低いものの、実運用のワークロードにおけるコンテキスト量と安定性は大幅に向上しています。

---

### 何が変わったか

以前は、長いツール出力（~25Kトークン）が一貫してクラッシュしていました。

原因は、メモリ問題を軽減するはずだったGenesisパッチ（PN12）に関連していることが判明しましたが、vLLM dev205+では実際には適用されていませんでした：

- `apply_all` は成功を報告

- しかし、基盤となるコードパスは変更されていなかった

根本原因は、パッチ内でのアンカーのドリフトでした。

これを修正した後、ツールのプリフィルによるOOMが消え、より高いコンテキスト設定が使えるようになりました。

修正:

https://github.com/Sandermage/genesis-vllm-patches（PR #13）

---

### 私たちが最適化していること

ここでの目標は、TPS最大化やコンテキスト最大化を単独で追い求めることではなく、単一の3090で両方を同時に押し上げることです：

- 高いコンテキスト（200K+）

- 実用的なスループット

- 安定したツール・エージェントのワークロード

---

### 追記 / 制限

- まだ別のメモリの崖があり、1 GPUで単一プロンプトのワークロードだと~50〜60Kあたりで発生します

- これはテンソル並列（例: 2× 3090）では適用されません

- 結果は量子化と設定に大きく依存します

---

### 再現手順

https://github.com/noonghunna/club-3090

---

3090/4090環境で、他の人たちはコンテキストとTPSのバランスをどう取っているのか気になります。

submitted by /u/AmazingDrivers4u
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/1Dailyインサイトを見る →

Black Hat USA

AI Business

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

追記：1× RTX 3090でのQwen3.6-27B、約218Kコンテキスト＋約50〜66TPSへ（ツールコールはPN12修正で安定化）

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer