AI Navigate

デュアル RTX Pro 6000 Blackwell 上での GLM 4.7

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Reddit の投稿は、358B パラメータの GLM 4.7 モデルがデュアル RTX Pro 6000 Blackwell の 192GB VRAM に完全に収まるかを検証し、バッチサイズを 1、入力長を 4096 トークン未満とした場合の実現可能な量子化(NVFP4 を含む)について問う。
  • 著者は、オンラインの VRAM 計算機が保守的である可能性を指摘し、理論的な推定よりも実際の結果を求めている。
  • 192GB の環境でモデルを収められない場合には、同じハードウェアと使用ケース(ロールプレイと RAG による汎用ツール呼び出し)に適した代替モデルの推奨を求めている。
  • スレッドには、議論とコメントのための mircM52 ユーザーによる Reddit 投稿へのリンクが提供されている。

このモデル(フルの358Bバージョン)を192GBのVRAMに完全に収めた人はいますか? もしそうなら、最大の量子化は何ですか(NVFP4は適合しますか?) バッチサイズ1、入力シーケンス<4096トークン。オンラインの理論的な計算機はぎりぎり収まらないと言っていますが、これらは保守的である傾向があると思うので、実際にうまくいく人がいるか知りたかったです。

もし収まらない場合、この設定に対して他のモデルの推奨はありますか? 主な使い方はロールプレイ(NSFWではありません)と一般的な支援(基本的なツール呼び出しとRAG)です。

もし前にこの質問があるとしたらすみません、見つけられなかったようです! 事前にありがとうございます!

投稿者 /u/mircM52
[リンク] [コメント]