みなさん、こんにちは。
昨日、ggufを自分で、そこそこの品質で量子化する方法を学んでみようと決めました。そうすれば、舞台裏の「魔法」がどういうものか理解できると思ったからです。
まさか……これほど大変だとは思いませんでした。どれだけ時間がかかるのか、そしてサイズ違いでさえ、Gemma-4-26B-A4Bだけで(500GB!)の保管スペースが大量に必要です。さらに、設定するための“芸術”があり、アーキテクチャや量子化タイプによっても違いがあります。
unslothがimatrixファイルを公開してくれたこと、そしてhuggingfaceがビューア内で重みタイプを表示してくれていることのおかげで、LLMの支援なしに何とか組み立てることができました。いくつかつまずきもあり、情報の一部が少し分かりにくかったので、他の誰かが学んで試しやすくなることを願って、自分の手順を記録しました。
レシピとセットアップの完全ガイドは、あなたも試したい場合はこちらにあります:
https://huggingface.co/nohurry/gemma-4-26B-A4B-it-heretic-GUFF/blob/main/REPRODUCE.md
フィードバックは大歓迎です。まだまだ学ぶことがたくさんあります!
というわけで、改めて本当に感謝したいです:
- mradenmacher:モデルリクエストの1つとして実際にこれに挑戦するよう私を後押ししてくれて、励ましてくれたことに感謝します
- unsloth:公開してくれたリソースに感謝します
- bartowski、ubergarm、aessedai:レシピや/または情報を共有してくれたことに感謝します
- thebloke:OG quantsに感謝します
- …そして、量子化データを公開するために時間と労力を費やしてくれている他の皆さんにも!
ぜひ一度は、自分で量子化(quants)を作ってみることをおすすめします。私はそれでかなり学べましたし、他の人がしてくれている作業の大変さもより理解できました。
[link] [comments]




