Gemma 4 26B A4B はコンテキスト 245283/262144(94%)でもまだ十分に高い能力を維持している!

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditユーザーの検証では、Gemma 4 26B A4B(GGUF)を最大262,144トークン級のコンテキストの約94%(245,283/262,144)まで投入しても、特定ユーザー発言の照合・回答が高精度で保たれたと報告されています。
  • 長大コンテキストでの自己言及ループ(自己疑問の掘り下げ・議論の無限化)を抑えるため、温度を下げ、repeat penaltyを1.17/1.18付近に調整すると改善したとのことです。
  • NVIDIA SMIからリアルタイムデータを取得するスクリプトに関する問題について、Gemini 3.1では解決しなかったがGemma 4側では解消できた、という具体的な作業上の改善例も挙げられています。
  • 実験ではllama.cppの最新版(更新頻度が高い)とUnslothの最新版GGUFを使用しており、モデルやビルド更新の再DLが必要だと注意喚起しています。
Gemma 4 26B A4B は 245283/262144 (94%) のコンテキストでもまだ完全に能力を発揮します!

https://preview.redd.it/x4nv3btr0kug1.png?width=1919&format=png&auto=webp&s=3c4cdda920a1cb74407e9292acb5bbeccea3bb5f

NVIDIA SMI からリアルタイムデータを取得するスクリプトの問題を解決しました。Gemini 3.1 は、もちろん新しいセッションでもそれを直せなかったんですよね(笑)。

2026 年に、すでに 200k+ のコンテキストを持つ安定したローカルモデルがあるの、正直かなり驚きです! 使い方を増やして VRAM への影響を見たくて、Reddit の投稿、ランダムなドキュメントファイル、そして llama.cpp リポジトリの生ファイルを、可能な限り大量に投入して試しました。このテスト中でも、Gemma は頭の筋を通したままでした! 245,283 / 262,144(94%)のコンテキストで、特定のユーザーが言ったことを聞けば、完全に一致し、2〜5 秒以内に回答します。

このコンテキストで 245283/262144(94%)なら、このユーザーが何を言ったか教えてと頼むと、完全に一致して、2〜5 秒以内に教えてくれます

https://preview.redd.it/fo0myzkp1kug1.png?width=831&format=png&auto=webp&s=2b46c5ef672138c20c7e0e5ca85814569112ec0e

これまでのテストから、自己質問のループに落ちないようにするには、温度を下げて repeat penalty を 1.17/1.18 に上げる必要があることが分かりました。100k コンテキストを超えると、以前は自分の思考を巡回して言い争い始めていました。最終回答を出す代わりに、ずっと延々と続いてしまうんです。これらの設定はかなり役立ちました!

私は最新の llama.cpp(ほぼ毎時アップデートがあります)と、2〜6 時間前の最新の Unsloth GGUF を使っています。なので、再ダウンロードしてください!

モデル:gemma-4-26B-A4B-it-UD-IQ4_NL.gguf 、unsloth(unsloth bis)
こちらが、pshel スクリプトで最初に使う llama.ccp の現在の設定です:

# --- [2. 最適化パラメータ] --- $ContextSize = "262144" $GpuLayers = "99" $Temperature = "0.7" $TopP = "0.95" $TopK = "40" $MinP = "0.05" $RepeatPenalty = "1.17" # --- [3. 引数の構築] --- $ArgumentList = @( "-m", $ModelPath, "--mmproj", $MMProjPath, "-ngl", $GpuLayers, "-c", $ContextSize, "-fa", "1", "--cache-ram", "2048", "-ctxcp", "2", "-ctk", "q8_0", "-b", "512", # 活性のオーバーヘッドを減らすための小さめバッチ "-ub", "512", "-ctv", "q8_0", "--temp", $Temperature, "--top-p", $TopP, "--top-k", $TopK, "--min-p", $MinP, "--repeat-penalty", $RepeatPenalty, "--host", "0.0.0.0", "--port", "8080", "--jinja", "--metrics" ) 

他に何をテストできますか? 正直、これを落とす(クラッシュさせる)ためのアイデアがもう尽きました! こちらが投げるものを何でも飲み込んで、延々と処理してます。

投稿者 /u/cviperr33
[リンク] [コメント]