私はいつも、VRAMが32GBあれば、私が動かせる最大のモデルはだいたい20GBくらいで、たとえばQwen3.5 27BのQ4やQ6のようなものだと思っていました。何でもVRAMに収まっていないとダメで、収まっていなければ2 t/sになるんだという印象を持っていました。
まったく違いました。私は、llama.cppで256kのコンテキスト指定をしてQwen3.6 Q8をそのままテストしただけです。さらに`--fit`をオンにしました。すると、重みだけで私のVRAMより大きいのです。しかも私の5090はOculink経由で接続していますが、それでも57 t/sが出ています!文字どおり魔法です。あなたも私と同じように「全部VRAM次第で、そうでなければ何もできない」と思い込んで行き詰まっているなら、今すぐこれを試してみるべきです!
[リンク] [コメント]
