このモデル(フルの358Bバージョン)を192GBのVRAMに完全に収めた人はいますか? もしそうなら、最大の量子化は何ですか(NVFP4は適合しますか?) バッチサイズ1、入力シーケンス<4096トークン。オンラインの理論的な計算機はぎりぎり収まらないと言っていますが、これらは保守的である傾向があると思うので、実際にうまくいく人がいるか知りたかったです。
もし収まらない場合、この設定に対して他のモデルの推奨はありますか? 主な使い方はロールプレイ(NSFWではありません)と一般的な支援(基本的なツール呼び出しとRAG)です。
もし前にこの質問があるとしたらすみません、見つけられなかったようです! 事前にありがとうございます!
[リンク] [コメント]




