TurboQuant 対 LM Studio Llama3.3 70b Q4_K_M

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、デュアルの RTX 3090 を使用して、Llama 3.3 70B Q4_K_M を TurboQuant と LM Studio でそれぞれ動作させ、約 16k のコンテキストでクイックテストを行って比較している。
全体的なベンチマーク結果では、LM Studio の方がわずかに良い結果（例：目的のリコール 85/85 対 Turbo 79/85）を示したが、TurboQuant も複数のリコールテストやトラップ／ディストラクションテストにおいて強い精度を達成している。
性能面では、TurboQuant はスループット（tokens/sec）がやや遅い一方で、TTFT（最初のトークンまでの時間）はほぼ変わらなかった。
著者は、デュアル 3090 ではコンテキストに制約があり、LM Studio は両者の比較（ヘッドツーヘッド）で 16k 以上を収められなかった点に触れ、そのトレードオフはユーザーの用途によって変わると示唆している。
他の人にも TurboQuant を試してもらい、同等のハードウェアで同様の結果が得られるかどうか共有してほしいと呼びかけている。

16kで簡単に雑なテストをしてみたんですが、かなり面白い結果でした。

デュアルの3090で動作

コンテキストVRAM: Turbo 1.8gb -- LM 5.4gb

Turbo -- LM
12の事実想起: 8 / 8 -- 8 / 8

命令の規律: ルール違反1件 -- 違反0件

ミッドプロンプト想起トラップ: 5 / 5 -- 5 / 5

A1からA20の項目想起: 6 / 6 -- 6 / 6

アーカイブ読み込みのストレス: 15 / 20 -- 20 / 20

Vault Sealed（重い気が散る状況）: 19 / 20 -- 20 / 20

Deep Vault Sealed（ほぼ限界）: 26 / 26 -- 26 / 26

目的の想起合計: 79 / 85 -- 85 / 85

なのでLMの勝ちではありましたが、考慮するとTurboもかなり健闘していました。

turboquantだとTok/sが少し遅くなりました。

TTFTは変わりませんでした。

すごくクールな技術だと思いました。コンテキストをどれくらい大きくできるかは確認していませんでしたが。対決形式のテストでは、LMだとデュアル3090で16k以上は入らなかったので、そこで止めました。

使用例によっては、これは妥当なトレードオフだと思います。

turboquantをいじっていて、似たような結果が出た人いますか？

AI Business

Qiita

Reddit r/LocalLLaMA

Dev.to

Dev.to