llama.cppのオートフィット(--fit)は想像以上にうまく動く

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 著者は以前、32GBのVRAM環境では約20GBクラスの量子化モデルまでしか実用的に動かせず、それを超えると大幅に速度が落ちるという認識を持っていました。
  • しかし、llama.cppの`--fit`オプションにより、256kコンテキストでQwen3.6 Q8を、重みだけでVRAMを超える状況でも動かせたと報告しています。
  • Oculink接続のGeForce RTX 5090環境で、約57 t/sの推論速度が得られたと主張しており、当初の見込みと反しています。
  • この投稿は、`--fit`によって想定より大きなモデルでもローカル推論が現実的になり、「VRAMさえ足りなければ無理」という考え方が必ずしも成り立たない可能性を示唆しています。

私はいつも、VRAMが32GBあれば、私が動かせる最大のモデルはだいたい20GBくらいで、たとえばQwen3.5 27BのQ4やQ6のようなものだと思っていました。何でもVRAMに収まっていないとダメで、収まっていなければ2 t/sになるんだという印象を持っていました。

まったく違いました。私は、llama.cppで256kのコンテキスト指定をしてQwen3.6 Q8をそのままテストしただけです。さらに`--fit`をオンにしました。すると、重みだけで私のVRAMより大きいのです。しかも私の5090はOculink経由で接続していますが、それでも57 t/sが出ています!文字どおり魔法です。あなたも私と同じように「全部VRAM次第で、そうでなければ何もできない」と思い込んで行き詰まっているなら、今すぐこれを試してみるべきです!

投稿者: /u/a9udn9u
[リンク] [コメント]