Gemma 4でQ8 mmprojを使ってさらに30K分のコンテキストを得る

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、Gemma 4で視覚（vision）にF16の代わりにQ8_0のmmprojを使うことで、画質の低下なしに達成可能なコンテキストを約30K増やせると主張しており、いくつかのテストではさらに結果が改善する可能性もあると述べています。
視覚を有効のまま（FP16キャッシュを使いつつ）合計コンテキストを60K+に到達させるのに役立つ具体的な生成設定（--image-min-tokens 300 と --image-max-tokens 512）が報告されています。
Gemma 4 26Bに使用された、特定のQ8 mmprojファイルへのHugging Faceリンクが提示されています。
著者は、llama.cppの投稿b8660ビルドでの回帰（regression）に対する今後の修正を予告しており、マージ後にアップデートすることを推奨しています。
全体として、この内容は、ローカルでのマルチモーダル（vision対応）Gemma 4実行において、限られたハードウェア予算の中でコンテキスト長を伸ばすための実践的な最適化として位置づけられています。

みなさん、昨日の「Gemma 4 26Bを実行する」投稿についての簡単なフォローアップです。

いろいろ試してみて、F16の代わりにQ8_0のmmprojをビジョン用にそのまま使えることが分かりました。品質低下はなく、実際にいくつかのテストでは（--image-min-tokens 300 --image-max-tokens 512付きで）少しだけ良い結果でした。FP16キャッシュを使えば、ビジョンを有効にしたままでも簡単に総コンテキスト60K+に到達できます。

こちらが私が使ったQ8 mmprojです： https://huggingface.co/prithivMLmods/gemma-4-26B-A4B-it-F32-GGUF/blob/main/GGUF/gemma-4-26B-A4B-it.mmproj-q8_0.gguf

元の投稿へのリンク（そしてヒントをくれたこのコメントへの多大なる感謝！）。

すぐに注意点： post b8660 のビルドで発生した回帰については、すでに修正が承認済みで、まもなくマージされます。マージ後に必ずアップデートしてください。

により投稿されました /u/Sadman782
[リンク] [コメント]