1ビットモデル(Medium & Largeサイズ)の追加はいつ来るの?

Reddit r/LocalLLaMA / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本投稿は、Prism MLのBonsai 8Bのような最近のリリースを受けて、より多くの「1ビット」(BitNet風/量子化された)LLMへの関心が高まっていることを示している。初期のユーザーフィードバックでは、ときどき幻覚(hallucinations)が見られるという指摘もある。
  • 非常に小型のGPU上で量子化モデルを動かすことについての議論に触れており、シミュレーションの取り組み(例:Qwen3.5)などが言及される。加えて、限られたハードウェアでも大規模モデルを現実的に動かせるようにすることへの、より広い関心(魅力)も語られている。
  • 著者は、パラメータ数と必要メモリ容量の比率を示す表を提示している(例:8B→1.5GB、50B→9.375GB、120B→22.5GB)。そして、1ビット版の選択肢がより広く利用可能になれば、控えめなVRAMでも50B+モデルが可能になると主張している。
  • 内容の大部分は憶測であり、コミュニティ主導の呼びかけでもある。同様の「1ビット」や量子化モデルのプロジェクトを「調理中(cooking)」かどうか、他の人にも共有してほしいとしている。

もちろん、この考えは最近のPrism MLのBonsai 8Bモデルの後に出てきたものです。

このスレッドは、Bonsai-8Bモデルについての率直なフィードバックのように見えます。幻覚(hallucination)が何度か起きたと挙げている人は少数いました。今後の1ビットモデルには、さらに多くの改善が付いてくることを期待しています。

Qwen3.5モデルのシミュレーションについての最近のスレッドがあります。小さなGPU向けには素晴らしいように見えます。あと(別のスレッドで)ミディアム〜ビッグ〜ラージモデルのサイズ比も挙げましたが、それも良さそうです。以下にサイズ比を貼り付けます。

(パラメータ数:GBでのサイズ)

  • 8 : 1.5 (Bonsai 8B)
  • 30: 5.625
  • 50: 9.375
  • 70: 13.125
  • 100: 18.75
  • 120: 22.5 (Qwen3.5-122B, GLM-4.5-Air, Step-3.5-Flash, Devstral-2-123B, Mistral-Small-4-119B)
  • 200: 37.5
  • 250: 46.875 (MiniMax-M2.5, Qwen3-235B-A22B)
  • 300: 56.25 (GLM-4.7, Qwen3.5-397B-A17B, MiMo-V2-Flash, Trinity-Large-Thinking)
  • 400: 75 (Llama-3.1-405B, Qwen3-Coder-480B-A35B, Llama-4-Maverick-17B-128E)
  • 500: 93.75 (LongCat-Flash-Chat)
  • 600: 112.5 (DeepSeek-V3/R1, Mistral-Large-3-675B)
  • 700: 131.25 (GLM-5, GigaChat3.1-702B-A36B)
  • 1000: 187.5 (Kimi-K2.5, Ling-2.5-1T, Ring-2.5-1T)

上記のサイズ帯でもっと多くの1ビットモデルがあれば嬉しくないですか?たとえば、50BモデルをVRAM 8GBだけで動かせたり、100BモデルをVRAM 24GBだけで動かせたりして……それって奇跡みたいですよね。

俺たちのために、あの人が何かを仕込んでいる。近いうちにそれがいくつか手に入るといいな。

Qwen 3 8B。今、俺は397Bを調理中です。だってみんながビットネットに対して食欲がすごいから。 - u/Party-Special-5177

ほかの人も、こういうのを何か作ってますか?ぜひ共有してください。

submitted by /u/pmttyji
[リンク] [コメント]