| 1年前なら、397Bのモデル群について読むだけでした。けれど今日では、ノートPCでそれを動かせます。重要度マトリクス(imatrix)と、Unslothの「モデルごとの適応型レイヤ量子化」を組み合わせたことが、これを可能にしている理由です。とはいえ、私が最初に397Bから始めたわけではありません。もっと小さい17個のモデルから始めました。 「M5 Max 128GB, 17 models, 23 prompts: Qwen 3.5 122B is still a local king"」という議論からは、非常に多くの素晴らしいフィードバックがありました。 私はGemma 4で、すべてのフィードバックをアクションに整理し、Gemmaと一緒に、そのフィードバックと要望に対応するために取り組む作業リストを作りました: https://github.com/tolitius/cupel/issues/1 要望の1つは、「 Qwen 397Bをダウンロードしたあと、何より先に、自分のノートPCに飲み込ませようとしているものが一体何なのか理解したくて確認しました: これで106GBだと分かりました。元の16bitモデルは807GBです。もし「単に」2bitに量子化するだけなら、(397B * 2 bits) / 8 = ~99 GB になるはずです。けれど実際は106GB。そこで、Unslothチームが実際に採用した量子化レシピをのぞき込んで確認したくなりました:
超おもしろいです。エキスパートのテンソル( 火中の試練試行錯誤の結果、128GBのユニファイドメモリに対するコンテキストは16Kがちょうど良いスイートスポットだと分かりました。しかし、それを収めるためにGPU側のスペースを少しだけ上げる必要があります(デフォルトでは約96GBなので): このモデルを動かすなら「 前回のredditで説明した私の現在のユースケースは、「子どもの学校の課題と進捗を理解するのに役立つ、最適なモデルの組み立て」を見つけることです。というのも、もし組織面が少しでもぐちゃぐちゃで、子どものデータがあるバラバラなシステムがいくつもあったり、コミュニケーションの不整合があったりするなら、それはまさに米国の公立学校の典型だからです。Claude Sonnetsの小さな軍隊がかなりうまくやってくれますが、とにかく高価です。だからこそ「 どのローカルモデルが「良い」仕事をするのかを理解するために、私はcupelを使いました: https://github.com/tolitius/cupel。そして次のステップは、起動して「 そして、すべてのテストの結果として分かったのは、「 「 |
私を最も驚かせたのは、平均生成速度の1秒あたり29トークンです:
prompt eval time = 269.46 ms / 33 tokens ( 8.17 ms per token, 122.46 tokens per second) eval time = 79785.85 ms / 2458 tokens ( 32.46 ms per token, 30.81 tokens per second) total time = 80055.31 ms / 2491 tokens slot release: id 1 | task 7953 | stop processing: n_tokens = 2490, truncated = 0 srv update_slots: all slots are idle これは'llama.cpp"からの例の1つです。プロンプト処理はバッチ処理に依存しており、1秒あたり80トークンから330トークンの範囲でした
現時点で見えている欠点:
- アセンブリで効率よく動かすことはできません。ロードできて収まる唯一のモデルだからです。122B(65GB)なら、まだ複数のモデルを並べて実行できます
- ハードウェアのメモリ制限のため、大きなコンテキストをうまく扱えるとは期待していません
- 理論上は、特定の専門家が必要な非常に専門的な知識に対処する場合の時間はより悪くなるはずですが、その重みは「潰れすぎて」いて、きれいな回答を出せません。ただ、おそらく「
I」が「IQ2-XXS」に入っていることで、重要な重みが元の値に非常に近い状態に保たれているのかもしれません - 負荷がかかったとき、速度が1秒あたり30から17トークンに低下するのを見ました。プロンプトキャッシュがいっぱいになってエビクション(追い出し)が発生しているのが原因だと疑っていますが、さらに調査が必要です
しかし.. 512のエキスパート、保存済み知識397B、トークンあたり17Bのアクティブパラメータ、そしてノートPCで1秒あたり29トークン。
submitted by




