| NVIDIA SMI からリアルタイムデータを取得するスクリプトの問題を解決しました。Gemini 3.1 は、もちろん新しいセッションでもそれを直せなかったんですよね(笑)。 2026 年に、すでに 200k+ のコンテキストを持つ安定したローカルモデルがあるの、正直かなり驚きです! 使い方を増やして VRAM への影響を見たくて、Reddit の投稿、ランダムなドキュメントファイル、そして llama.cpp リポジトリの生ファイルを、可能な限り大量に投入して試しました。このテスト中でも、Gemma は頭の筋を通したままでした! 245,283 / 262,144(94%)のコンテキストで、特定のユーザーが言ったことを聞けば、完全に一致し、2〜5 秒以内に回答します。 このコンテキストで 245283/262144(94%)なら、このユーザーが何を言ったか教えてと頼むと、完全に一致して、2〜5 秒以内に教えてくれます これまでのテストから、自己質問のループに落ちないようにするには、温度を下げて repeat penalty を 1.17/1.18 に上げる必要があることが分かりました。100k コンテキストを超えると、以前は自分の思考を巡回して言い争い始めていました。最終回答を出す代わりに、ずっと延々と続いてしまうんです。これらの設定はかなり役立ちました! 私は最新の llama.cpp(ほぼ毎時アップデートがあります)と、2〜6 時間前の最新の Unsloth GGUF を使っています。なので、再ダウンロードしてください! モデル:gemma-4-26B-A4B-it-UD-IQ4_NL.gguf 、unsloth(unsloth bis) 他に何をテストできますか? 正直、これを落とす(クラッシュさせる)ためのアイデアがもう尽きました! こちらが投げるものを何でも飲み込んで、延々と処理してます。 [リンク] [コメント] |
Gemma 4 26B A4B はコンテキスト 245283/262144(94%)でもまだ十分に高い能力を維持している!
Reddit r/LocalLLaMA / 2026/4/11
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Redditユーザーの検証では、Gemma 4 26B A4B(GGUF)を最大262,144トークン級のコンテキストの約94%(245,283/262,144)まで投入しても、特定ユーザー発言の照合・回答が高精度で保たれたと報告されています。
- 長大コンテキストでの自己言及ループ(自己疑問の掘り下げ・議論の無限化)を抑えるため、温度を下げ、repeat penaltyを1.17/1.18付近に調整すると改善したとのことです。
- NVIDIA SMIからリアルタイムデータを取得するスクリプトに関する問題について、Gemini 3.1では解決しなかったがGemma 4側では解消できた、という具体的な作業上の改善例も挙げられています。
- 実験ではllama.cppの最新版(更新頻度が高い)とUnslothの最新版GGUFを使用しており、モデルやビルド更新の再DLが必要だと注意喚起しています。



