RTX3090+Qwen 3.6 27Bで実タスクのTPSはどれくらい出る?

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 投稿者は、RTX 3090上でQwen 3.6 27Bを使い、巨大なコンテキストウィンドウ(例:200k)を前提にローカルエージェントでコード監査のような低複雑度タスクを行いたいが、長いコンテキスト領域ではTPSが大きく低下(約10〜11 tps)していると述べています。
  • Windowsでのtom’s turboquant+llama.cppフォーク、WSL2+vLLMのMTP/Genesisパッチ、Luce DFlashなどを試しましたが、実用的なコンテキスト幅でのOOM、ツール周りの不具合、思考/フォーマット挙動が正しく動かない実装などの問題に直面しています。
  • コミュニティ投稿では高いTPS(例:85〜100 tps、あるいは長い会話で30 tps程度)を主張するものの、提示される数値が「単一プロンプト」に基づくことが多く、実際のエージェント運用で必要な複数ステップの往復が反映されていないのではないかと疑っています。
  • MTPやDFlashのような高速化手法は、予測モデルが同時に見られるコンテキストが一部に限られるため、長い文脈では予測が難しくなって急速に性能が劣化するのではないか、と問題の本質を問いかけています。
  • 最後に、低TPSの原因が設定や運用の「スキル不足」なのか、それともこれらのアプローチが長文脈のコーディング・エージェントに対して本質的に限界があるのかを確認したいという意図が示されています。

この状況のすべてを頭に入れるのに苦労しています。私の目標は、フロンティアモデルを使うのと同じ環境(ハーネス)で、低複雑度のタスクを解くためのローカルエージェントです。つまり自然に大きなコンテキストウィンドウが必要になります。低複雑度というのは、ゼロから適当に何かを生成するというより、大きなコードベースに対して単純な修正をするだけ、という意味にもなり得るからです。

そこで最初は、(私はWindowsなので)Tom's turboquantにllama.cppのフォークを組み合わせ、Qwen 3.6のQ4およびIQ4モデルで、コンテキストウィンドウ200kにしました。ええ、動きました。こちらが与えたサンプルプロジェクト一式を読み取り、(できる範囲で)監査(オーディット)を作成できます。ですが、コンテキストウィンドウの深いところに入ると、速度がただただ悲しい感じで、10〜11 tps、あるいはそれ以下ですかね?

そこで、いろいろな投稿を掘ることになりました。どれも「単一の3090で、5 billion規模のコンテキストウィンドウ(だいたいそんな感じ)を使って、85〜100 tps出る」といった内容でした。私は、WSL2+vLLMにMTPやGenesisパッチを入れて試しました。ええ、起動はするのですが、十分なコンテキストウィンドウにすると必ずOOMになります。また、ツールまわりの問題などもあるように見えます。

Luce DFlashの解決策も試しましたが、調べてみると、そもそも動作するサーバー解決策が用意されていなかったことが分かりました。大きなVRAM問題を直すPRを2つ出しましたが、その後、thinking(推論)のフォーマットが正しくできず、さらにツールをまったく使えないことが判明しました。まぁ、少なくとも「hi」のチャットでは速かったです。

今は別のllama.cppフォークをいくつか試し、それらにある明らかな問題を修正しようとしていますが、この時点で、正直全部を疑いたくなっています。

実タスクで、3090+Qwen 3.6 27Bのtpsはどれくらい出ますか?適切なハーネスで、数千単位のコンテキストを含む実際のコーディングタスクのようなものです。私が読んだ限りでは、MTPやDFlashのような技術は、予測が正しくなるのが非常に難しくなるため、コンテキストが長くなると(とても、とても)急速に劣化します。予測モデルは常にコンテキストのごく一部しか見ないから、という理解で合っていますか?

ただ一方で、長いチャットでも30 tpsくらい維持できると主張する人もいます。その「チャット」が重要です。これらのベンチマークは、モデルに1つのプロンプトを与えることで得られる数値を示しています。これは、多段階のチャットよりもとにかくとても高速だからです。しかし実際のエージェント的な使い方では、往復のフィードバックが必要になることがよくあります。

そしてはい、私はthinkingが必要です。それはコーディングタスクでは重要ですが、thinkingが入ることで、予測システムの速度がさらに壊れる(もっと悪くなる)ように見えますが、それは本当なのでしょうか?

それで教えてください。これはスキルの問題ですか?それとも、これらの投稿が思わせるほど単純ではないのでしょうか?

submitted by /u/Anbeeld
[link] [comments]