Gemma 4 26B A4B はコンテキスト 245283/262144（94%）でもまだ十分に高い能力を維持している！

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Redditユーザーの検証では、Gemma 4 26B A4B（GGUF）を最大262,144トークン級のコンテキストの約94%（245,283/262,144）まで投入しても、特定ユーザー発言の照合・回答が高精度で保たれたと報告されています。
長大コンテキストでの自己言及ループ（自己疑問の掘り下げ・議論の無限化）を抑えるため、温度を下げ、repeat penaltyを1.17/1.18付近に調整すると改善したとのことです。
NVIDIA SMIからリアルタイムデータを取得するスクリプトに関する問題について、Gemini 3.1では解決しなかったがGemma 4側では解消できた、という具体的な作業上の改善例も挙げられています。
実験ではllama.cppの最新版（更新頻度が高い）とUnslothの最新版GGUFを使用しており、モデルやビルド更新の再DLが必要だと注意喚起しています。

Gemma 4 26B A4B は 245283/262144 (94%) のコンテキストでもまだ完全に能力を発揮します！

https://preview.redd.it/x4nv3btr0kug1.png?width=1919&format=png&auto=webp&s=3c4cdda920a1cb74407e9292acb5bbeccea3bb5f

NVIDIA SMI からリアルタイムデータを取得するスクリプトの問題を解決しました。Gemini 3.1 は、もちろん新しいセッションでもそれを直せなかったんですよね（笑）。

2026 年に、すでに 200k+ のコンテキストを持つ安定したローカルモデルがあるの、正直かなり驚きです！使い方を増やして VRAM への影響を見たくて、Reddit の投稿、ランダムなドキュメントファイル、そして llama.cpp リポジトリの生ファイルを、可能な限り大量に投入して試しました。このテスト中でも、Gemma は頭の筋を通したままでした！ 245,283 / 262,144（94%）のコンテキストで、特定のユーザーが言ったことを聞けば、完全に一致し、2〜5 秒以内に回答します。

このコンテキストで 245283/262144（94%）なら、このユーザーが何を言ったか教えてと頼むと、完全に一致して、2〜5 秒以内に教えてくれます

https://preview.redd.it/fo0myzkp1kug1.png?width=831&format=png&auto=webp&s=2b46c5ef672138c20c7e0e5ca85814569112ec0e

これまでのテストから、自己質問のループに落ちないようにするには、温度を下げて repeat penalty を 1.17/1.18 に上げる必要があることが分かりました。100k コンテキストを超えると、以前は自分の思考を巡回して言い争い始めていました。最終回答を出す代わりに、ずっと延々と続いてしまうんです。これらの設定はかなり役立ちました！

私は最新の llama.cpp（ほぼ毎時アップデートがあります）と、2〜6 時間前の最新の Unsloth GGUF を使っています。なので、再ダウンロードしてください！

モデル：gemma-4-26B-A4B-it-UD-IQ4_NL.gguf 、unsloth（unsloth bis）
こちらが、pshel スクリプトで最初に使う llama.ccp の現在の設定です：

# --- [2. 最適化パラメータ] --- $ContextSize = "262144" $GpuLayers = "99" $Temperature = "0.7" $TopP = "0.95" $TopK = "40" $MinP = "0.05" $RepeatPenalty = "1.17" # --- [3. 引数の構築] --- $ArgumentList = @( "-m", $ModelPath, "--mmproj", $MMProjPath, "-ngl", $GpuLayers, "-c", $ContextSize, "-fa", "1", "--cache-ram", "2048", "-ctxcp", "2", "-ctk", "q8_0", "-b", "512", # 活性のオーバーヘッドを減らすための小さめバッチ "-ub", "512", "-ctv", "q8_0", "--temp", $Temperature, "--top-p", $TopP, "--top-k", $TopK, "--min-p", $MinP, "--repeat-penalty", $RepeatPenalty, "--host", "0.0.0.0", "--port", "8080", "--jinja", "--metrics" )

他に何をテストできますか？正直、これを落とす（クラッシュさせる）ためのアイデアがもう尽きました！こちらが投げるものを何でも飲み込んで、延々と処理してます。

投稿者 /u/cviperr33
[リンク] [コメント]