2×RTX 3090でDFlashを使ったQwen3.5 27Bが約65tpsで動作

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • ローカル環境でQwen3.5 27Bを動作させ、約65tpsの推論スループットが出ているという投稿が共有された。
  • 設備は2枚のRTX 3090とされ、推論性能を引き上げるための最適化や工夫が前提になっている。
  • 投稿ではDFlash(推論・メモリアクセス系の高速化手法)を使った/使うことでの効果が示唆されており、ボトルネック解消が狙いと考えられる。
  • ローカルLLMの実行効率を高める「実用寄りの技術的シグナル」として、同構成を検討するユーザーの判断材料になる。