みなさん、昨日の「Gemma 4 26Bを実行する」投稿についての簡単なフォローアップです。
いろいろ試してみて、F16の代わりにQ8_0のmmprojをビジョン用にそのまま使えることが分かりました。品質低下はなく、実際にいくつかのテストでは(--image-min-tokens 300 --image-max-tokens 512付きで)少しだけ良い結果でした。FP16キャッシュを使えば、ビジョンを有効にしたままでも簡単に総コンテキスト60K+に到達できます。
こちらが私が使ったQ8 mmprojです: https://huggingface.co/prithivMLmods/gemma-4-26B-A4B-it-F32-GGUF/blob/main/GGUF/gemma-4-26B-A4B-it.mmproj-q8_0.gguf
元の投稿へのリンク(そしてヒントをくれたこのコメントへの 多大なる感謝!)。
すぐに注意点: post b8660 のビルドで発生した回帰については、すでに修正が承認済みで、まもなくマージされます。マージ後に必ずアップデートしてください。
[リンク] [コメント]




