26Bクラスの範囲のモデルは、GPUアクセラレーションを使う場合でも加速された層をすべて有線メモリ内に収める必要があるため、16GBのMacでは実行が難しいことが多いです。強力な量子化(2ビット、または非常に軽量なIQ3_XXS)なら可能ですが、それをすると品質が大幅に低下します。
ただし、代わりにCPUだけで全て実行する(これはMoEモデルであればはるかに現実的です)なら、モデルが利用可能なシステムRAM全体より大きくなってしまっても、かなり良い量子化を実行できる可能性があります。エキスパートの入れ替えによるパフォーマンス低下はありますが、想像していたよりもずっと小さいと感じました。
私はM2 Macbook Proで、8〜16Kのコンテキストウィンドウを使って6〜10 tpsを簡単に達成できました(さまざまな4ビットおよび5ビットのクアントでテスト。UnslothのIQ4_NLが最も良く動きます)。速いわけではありませんが、この種のハードウェアで動かすことに慣れている人にとっては、十分に実用的です。
GPUレイヤーの数を0に設定し、「keep model in memory(モデルをメモリに保持)」のチェックを外し、バッチサイズを64など軽めに設定するだけです。その他はすべてデフォルトのままで構いません(KVキャッシュの量子化は任意ですが、Q8_0ならパフォーマンスが少し改善するかもしれません)。
LMStudio向けの思考(thinking)修正:
また、LMstudioの利用者の方へ:現在公開されているもののどれも、モデルが対応しているのに、思考(thinking)がデフォルトで有効になっていません。有効にするには、モデル設定に入り、推論タブの下にあるJINGAプロンプトテンプレートの最上部に、次の行を追加する必要があります。
{% set enable_thinking=true %}
さらに、推論パース(reasoning parsing)文字列も変更します:
開始文字列: <|channel>thought
終了文字列: <channel|>
(この修正案のクレジット:@Guilty_Rooster_6708) - この修正は私が考えたものではありません。私が参照した投稿へのリンクを貼っています。
[link] [comments]




